Линейный дискриминантный анализ

редактировать
Метод, используемый в статистике, распознавании образованных и других полях

Линейный дискриминантный анализ (LDA ), нормальный дискриминантный анализ (NDA ) или анализ дискриминантной функции является обобщением линейного дискриминанта Фишера, используемого метода в статистике, распознавании образов и других полях, чтобы найти линейную комбинацию из признаков, которая обеспечивает или разделяет два или более классов или объекты события. Результирующая комбинация может установить в качестве линейного классификатора или чаще, для уменьшения размерности перед более поздней классификацией.

LDA соединяет с анализом дисперсионный ( ANOVA) и регрессионный анализ, которые также пытаются выразить одну зависимую переменную как линейную комбинацию других характеристик или измерений. Однако ANOVA использует категориальные независимые переменные и непрерывную зависимую переменную, тогда как дискриминантный анализ имеет непрерывные независимые переменные и категориальная зависимая переменная (т. е. метка класса). Логистическая регрессия и пробит-регрессия больше похожи на LDA, чем на ANOVA, поскольку они также объясняют категориальную переменную значениями непрерывных переменные. Эти другие методы предпочтительны в приложениях, где неразумно предполагать, что независимые переменные имеют нормальное распределение, что является фундаментальным предположением метода LDA.

LDA также использует вместе с анализом главных компонентов (PCA) и факторным анализом в том смысле, что оба они ищут линейные комбинации переменных, которые лучше всего объясняют данные. LDA явно пытается смоделировать разницу между классами данных. PCA напротив, не принимает во внимание различие в классе, факторный анализ строит комбинации признаков на основе различий, а не сходства. Дискриминантный анализ также отличается от факторного анализа тем, что он не является методом взаимозависимости: необходимо различать независимые переменные и зависимые переменные (также называемые критериальными переменными).

LDA работает, когда независимое измерение для каждого наблюдения непрерывными величинами. При работе с категориальными переменными эквивалентным методом является анализ дискриминантного соответствия.

Дискриминантный анализ используется, когда группы известны априори (отличие от кластерного анализа ). Каждый случай должен иметь балл по одному или нескольким количественным прогнозирующим показателям и балл по групповому показателю. Проще говоря, анализ дискриминантной функции - это классификация - распределение вещей на группы, классы или категории типа.

Содержание
  • 1 История
  • 2 LDA для двух классов
  • 3 Допущения
  • 4 Дискриминантные функции
  • 5 Правила дискриминации
  • 6 Собственные значения
  • 7 Размер эффекта
  • 8 Канонический дискриминантный анализ для k классов
  • 9 Линейный дискриминант Фишера
  • 10 Мультиклассовый LDA
  • 11 Инкрементный LDA
  • 12 Практическое использование
  • 13 Приложения
    • 13.1 Прогнозирование банкротства
    • 13.2 Распознавание лиц
    • 13.3 Маркетинг
    • 13.4 Биомедицинские исследования
    • 13.5 Науки о Земле
  • 14 Сравнение с логистической регрессией
  • 15 Линейный дискриминант в высоком измерении
  • 16 См. Также
  • 17 Ссылки
  • 18 Дополнительная литература
  • 19 Внешние ссылки
История

Исходный дихотомический дискриминантный анализ был разработан сэром Рональдом Фишером в 1936 году. Он отличается от ANOVA или MANOVA, который используется для прогнозирования одного (ANOVA) или нескольких (MANOVA) непрерывно зависимых переменных с помощью одной или нескольких независимых категориальных чисел. Анализ дискриминантной функции полезен для определения того, эффективен ли набор для прогнозирования атрибутов категории.

LDA для двух классов

Рассмотрим набор наблюдений x → {\ displaystyle {\ vec {x}}}{\ vec {x}} (также называемые функции, атрибутами, переменными или измерениями) для каждой выборки объекта или события с известным классом y {\ displaystyle y}y . Этот набор образцов называется обучающим набором. Тогда задача классификации состоит в том, чтобы найти хороший предсказатель для класса y {\ displaystyle y}y любой выборки того же распределения (не обязательно из обучающей выборки) с учетом только наблюдения x → { \ displaystyle {\ vec {x}}}{\ vec {x}} .

LDA подходит к проблеме, предполагая, что условные функции плотности вероятности p (x → | y = 0) {\ displaystyle p ({\ vec {x}} | y = 0)}p ({\ vec {x}} | y = 0) и p (x → | y = 1) {\ displaystyle p ({\ vec {x}} | y = 1)}p ({\ vec {x}} | y = 1) оба нормально распределены со средним и ковариационными предусмотренными (μ → 0, Σ 0) {\ displaystyle \ left ({\ vec {\ mu}} _ {0}, \ Sigma _ {0} \ right)}\ left ({\ vec {\ mu} } _ {0}, \ Sigma _ {0} \ right) и (μ → 1, Σ 1) {\ displaystyle \ left ({\ vec {\ mu}} _ {1}, \ Sigma _ {1} \ right)}\ left ({\ vec {\ mu}} _ {1}, \ Sigma _ {1} \ right) соответственно. При этом предположении, оптимальное решение состоит в том, чтобы предсказать точку зрения как принадлежащие второму классу, если логарифм отношений правдоподобия больше некоторого порога T, так что:

(x → - μ → 0) T Σ 0 - 1 (x → - μ → 0) + ln ⁡ | Σ 0 | - (x → - μ → 1) T Σ 1 - 1 (x → - μ → 1) - ln ⁡ | Σ 1 |>Т {\ displaystyle ({\ vec {x}} - {\ vec {\ mu}} _ {0}) ^ {T} \ Sigma _ {0} ^ {- 1} ({\ vec {x}} - {\ vec {\ mu}} _ {0}) + \ ln | \ Sigma _ {0} | - ({\ vec {x}} - {\ vec {\ mu}} _ {1}) ^ {T} \ Sigma _ {1} ^ {- 1} ({\ vec {x}} - {\ vec {\ mu}} _ {1}) - \ ln | \ Sigma _ {1} | \>\ T}({\vec {x}}-{\vec {\mu }}_{0})^{T}\Sigma _{0}^{-1}({\vec {x}}-{\vec {\mu }}_{0})+\ln |\Sigma _{0}|-({\vec {x}}-{\vec {\mu }}_{1})^{T}\Sigma _{1}^{-1}({\vec {x}}-{\vec {\mu }}_{1})-\ln |\Sigma _{1}|\>\ T

Без каких-либо дополнительных предположений результирующий классификатор называется QDA (квадратичный дискриминантный анализ ). т. Е. что ковариации классов идентичны, поэтому Σ 0 = Σ 1 = Σ {\ displaystyle \ Sigma _ {0} = \ Sigma _ {1} = \ Sigma}\ Sigma _ {0} = \ Sigma _ {1} = \ Sigma ) и что ковариации В этом случае сокращаются несколько членов:

x → T Σ 0 - 1 x → = x → T Σ 1 - 1 x → {\ displaystyle {\ vec {x}} ^ {T} \ Sigma _ {0} ^ {- 1} {\ vec {x}} = {\ vec {x}} ^ {T} \ Sigma _ {1} ^ {- 1} {\ vec {x}}}{\ vec {x}} ^ {T} \ Sigma _ {0} ^ {- 1} {\ vec {x}} = {\ vec {x}} ^ {T} \ Sigma _ {1} ^ {- 1} {\ vec {x}}
x → T Σ i - 1 μ → i = μ → i T Σ i - 1 x → {\ dis стиль игры {\ vec {x}} ^ {T} {\ Sigma _ {i}} ^ {- 1} { \ vec {\ mu}} _ {i} = {{\ vec {\ mu}} _ {я}} ^ {T} {\ Sigma _ {i}} ^ {- 1} {\ vec {x}} }{\ displaystyle {\ vec {x}} ^ {T} {\ Sigma _ {i}} ^ {- 1} {\ vec {\ mu}} _ {я } = {{\ vec {\ mu}} _ {i}} ^ {T} {\ Sigma _ {i}} ^ {- 1} {\ vec {x}}} потому что что Σ i {\ displaystyle \ Sigma _ {i}}\ Sigma _ {i} равно эрмитовскому

, и за один критерий решения становится порогом для точечного произведения

w → ⋅ Икс →>с {\ displaystyle {\ vec {w}} \ cdot {\ vec {x}}>c}{\vec {w}}\cdot {\vec {x}}>c

для некоторой пороговой константы c, где

w → = Σ - 1 (μ → 1 - μ → 0) {\ displaystyle {\ vec {w}} = \ Sigma ^ {-1} ({\ vec {\ mu}} _ {1} - {\ vec {\ mu}} _ {0})}{\ vec {w}} = \ Sigma ^ {- 1} ({\ vec {\ mu}} _ {1 } - {\ vec {\ mu}} _ {0})
с = вес → ⋅ 1 2 (μ → 1 + μ → 0) {\ displaystyle c = {\ vec {w}} \ cdot {\ frac {1} {2}} ({\ vec {\ mu} } _ {1} + {\ vec {\ mu}} _ {0})}{\ displaystyle c = {\ vec {w}} \ cdot {\ frac {1} {2}} ({\ vec {\ mu}} _ {1} + {\ vec {\ mu}} _ {0})}

Это означает, что критерий входа x → {\ displaystyle {\ vec {x}}}{\ displaystyle {\ vec {x}}} находится в классе y {\ displaystyle y}y является чисто функцией этой линейной наблюдаемых наблюдений.

Часто бывает полезно увидеть этот вывод в геометрических терминах: критерий входа x → {\ displaystyle {\ vec {x}}}{\ displaystyle {\ vec {x}}} находится в классе y {\ displaystyle y}y - это просто функция проекции точки многомерного пространства x → {\ displaystyle {\ vec {x}}}{\ displaystyle {\ vec {x}}} на vector w → {\ displaystyle {\ vec {w}}}{\ displaystyle {\ vec {w}}} (таким образом мы учитываем только его направление). Другими словами, наблюдение принадлежит y {\ displaystyle y}y , если соответствует x → {\ displaystyle {\ vec {x}}}{\ displaystyle {\ vec {x}}} определена определенная сторона гиперплоскости, перпендикулярная w → {\ displaystyle {\ vec {w}}}{\ displaystyle {\ vec {w}}} . Расположение самолета определяется порогом c.

Допущения

Допущения дискриминантного анализа таких же, как и для MANOVA. Анализ довольно чувствителен к выбросам, и размер самой маленькой группы должен быть больше, чем количество-предикторов.

Это было высказано предположение, что дискриминантный анализ относительно устойчиво к незначительным нарушениям этих предположений, а также было показано, что дискриминантный анализ может быть надежным при использовании дихотомических переменных (где многомерная нормальность часто нарушается).

Дискриминантные функции

Дискриминантный анализ работает путем создания одной или нескольких линейных комбинаций предикторов, создавая новую скрытую переменную для каждой функции. Эти функции называются дискриминантными функциями. Количество функций: N g - 1 {\ displaystyle N_ {g} -1}{\ displaystyle N_ {g} -1} , где N g {\ displaystyle N_ {g}}N_ {g} = количество групп или p {\ displaystyle p}п (количество предикторов), в зависимости от того, что меньше. Первая созданная функция максимизирует набор между группами по этой функции. Функция Вторая максимизирует различия в этой функции, но также не должна коррелировать с предыдущей функцией. Это продолжается с последующими функциями с требованием, чтобы новая функция не коррелировала ни с одной из предыдущих функций.

Данная группа j {\ displaystyle j}j , с наборами R j {\ displaystyle \ mathbb {R} _ {j}}{\ mathbb {R} } _ {j} пространства выборок, существует такое правило дискриминанта, что если x ∈ R j {\ displaystyle x \ in \ mathbb {R} _ {j}}x \ in {\ mathbb {R}} _ {j} , то x ∈ j {\ Displaystyle х \ в j}x \ in j . Затем дискриминантный анализ находит «хорошие» области R j {\ displaystyle \ mathbb {R} _ {j}}{\ mathbb {R} } _ {j} , чтобы минимизировать ошибку классификации, что приводит к высокому проценту высоку правильных, классифицированных в классификации. таблица.

Каждой функции присваивается дискриминантная оценка, чтобы определить, насколько хорошо она предсказывает размещение группы.

  • Коэффициенты корреляции структуры: корреляция между каждым предиктором и дискриминантной оценкой каждой функции. Это корреляция нулевого порядка (то есть без поправки для других предикторов).
  • Стандартизированные коэффициенты: вес каждого предиктора в линейной комбинации, которая является дискриминантной функцией. Как и в уравнении регрессии, эти коэффициенты являются частичными (т. Е. Скорректированными с учетом других предикторов). Указывает уникальный вклад каждого предиктора в прогнозирование назначения группы.
  • Функции в центроидах группы: средние дискриминантные оценки для каждой группирующей приводятся для каждой функции. Чем дальше друг от друга средние значения, тем меньше ошибок будет при классификации.
Правила дискриминации
Собственные значения

Собственное значение в дискриминантном анализе каждой характерным характерным корнем функции. Это показатель того, насколько хорошо эта функция различает группы: чем больше собственное значение, тем лучше дифференцируется функция. Однако это следует интерпретировать с осторожностью, поскольку собственные значения не имеют верхнего предела. Собственное значение можно рассматривать как отношение SS между и SS в пределах, как в ANOVA, когда зависимая переменная является дискриминантной функцией, а группы - уровнями IV.. Это означает, что наибольшее собственное связано с первой функцией, второе по величине - со второй и т. Д.

Размер эффекта

Могут быть использованы собственные значения как размер эффекта мер, правда, это вообще не поддерживается. Вместо этого каноническая корреляция предпочтительной мерой эффекта эффекта. Оно похоже на собственное значение, но представляет собой квадратный корень из отношений SS между и SS итого. Это взаимосвязь между группами и функцией. Еще одна популярная мера величины эффекта - это процент отклонения для каждой функции. Это вычисляется по формуле: (λ x / Σλ i) X 100, где λ x - собственное значение функции, а Σλ i - сумма всех собственных значений. Это говорит нам, насколько надежен прогноз для данной функции по сравнению с другими. Правильно классифицированный процент также можно проанализировать как результат эффекта. Значение каппа может описать это с поправкой на случайное совпадение. Каппа нормализуется по всем категориям, а не смещается из-за плохих или плохо работающих классов.

Канонический дискриминантный анализ для k классов

Канонический дискриминантный анализ (CDA) находит оси (k - 1 канонические координаты, k - количество классов), которые лучше всего разделяют категории. Эти линейные функции не коррелированы и определены оптимальное k - 1 пространство через n-мерное облако данных, наилучшим образом разделяет (проекции в этом пространстве) k групп. Подробнее см. «Мультикласс LDA » ниже.

Линейный дискриминант Фишера

Термины линейный дискриминант Фишера и LDA часто используются как взаимозаменяемые, хотя исходная статья Фишера на самом деле это немного другой дискриминант, который не делает некоторые из допущения LDA, такие как нормально распределенные классы или равные классы ковариации.

Предположим, что два класса наблюдений имеют средние μ → 0, μ → 1 {\ displaystyle {\ vec {\ mu}} _ {0}, {\ vec {\ mu}} _ {1}}{\ vec {\ mu}} _ {0}, {\ vec {\ mu}} _ {1} и ковариации Σ 0, Σ 1 {\ displaystyle \ Sigma _ {0 }, \ Sigma _ {1}}\ Sigma _ {0}, \ Сигма _ {1} . Тогда линейная комбинация признаков w → ⋅ x → {\ displaystyle {\ vec {w}} \ cdot {\ vec {x}}}{\ vec {w}} \ cdot {\ vec {x}} будет иметь означает вес → ⋅ μ → я {\ displaystyle {\ vec {w}} \ cdot {\ vec {\ mu}} _ {i}}{\ vec {w}} \ cdot {\ vec {\ mu}} _ {i} и вариантов w → T Σ iw → {\ displaystyle {\ vec {w}} ^ {T} \ Sigma _ {i} {\ vec {w}}}{\ vec {w}} ^ {T} \ Sigma _ {i} {\ vec {w}} для i = 0, 1 {\ Displaystyle i = 0,1}i=0,1. Фишер определил разделение между этими двумя распределениями как отношение дисперсии между классами к дисперсии внутри классов:

S = σ между 2 σ в пределах 2 = (w → ⋅ μ → 1 - w → ⋅ μ → 0) 2 вес → T Σ 1 вес → + вес → T Σ 0 вес → = (вес → ⋅ (μ → 1 - μ → 0)) 2 вес → T (Σ 0 + Σ 1) w → {\ displaystyle S = {\ frac {\ sigma _ {\ text {between}} ^ {2}} {\ sigma _ {\ text {within}} ^ {2}}} = {\ frac {({\ vec {w}} \ cdot {\ vec {\ mu}} _ {1} - {\ vec {w}} \ cdot {\ vec {\ mu}} _ {0}) ^ {2}} {{\ vec {w}} ^ {T} \ Sigma _ {1} {\ vec {w}} + {\ vec {w}} ^ {T} \ Sigma _ {0} {\ vec {w}}}} = {\ frac {({ \ vec {w}} \ cdot ({\ vec {\ mu}} _ {1} - {\ vec {\ mu}} _ {0})) ^ {2}} {{\ vec {w}} ^ {T} (\ Sigma _ {0} + \ Sigma _ {1}) {\ vec {w}}}}}S = {\ frac {\ sigma _ {\ text {between}} ^ {2}} {\ sigma _ {\ text {within}} ^ {2 }}} = {\ frac {({\ vec {w}} \ cdot {\ vec {\ mu}} _ {1} - {\ vec {w}} \ cdot {\ vec {\ mu}} _ { 0}) ^ {2}} {{\ vec {w}} ^ {T} \ Sigma _ {1} {\ vec {w}} + {\ vec {w}} ^ {T} \ Sigma _ {0 } {\ vec {w}}}} = {\ frac {({\ vec {w}} \ cdot ({\ vec {\ mu}} _ {1} - {\ vec {\ mu}} _ {0 })) ^ {2}} {{\ vec {w}} ^ {T} (\ Sigma _ {0} + \ Sigma _ {1}) {\ vec {w}}}}

Эта мера в некотором смысле является мерой отношение сигнал / шум для обозначения класса. Можно показать, что максимальное разделение происходит, когда

w → ∝ (Σ 0 + Σ 1) - 1 (μ → 1 - μ → 0) {\ displaystyle {\ vec {w}} \ propto (\ Sigma _ { 0} + \ Sigma _ {1}) ^ {- 1} ({\ vec {\ mu}} _ {1} - {\ vec {\ mu}} _ {0})}{\ vec {w}} \ propto (\ Sigma _ {0} + \ Sigma _ {1}) ^ {- 1} ({\ vec {\ mu}} _ {1} - {\ vec {\ mu}} _ {0})

Когда предположения LDA, приведенное выше уравнение эквивалентно LDA.

Обязательно обратите внимание, что вектор w → {\ displaystyle {\ vec {w}}}{\ v ec {w}} является нормальным к дискриминанту гиперплоскость. Например, в двумерной задаче линия, которая лучше всего разделяет две группы, перпендикулярна w → {\ displaystyle {\ vec {w}}}{\ v ec {w}} .

Как правило, точки данных, указывающие различение, проецируются на ш → {\ displaystyle {\ vec {w}}}{\ v ec {w}} ; тогда порог, который лучше всего разделяет данные, выбирается из анализа одного распределения. Общего правила для порога нет. Однако если проекции точек из обоих классов демонстрируют примерно одинаковое распределение, хорошее будет гиперплоскость между проекциями двух средних, w → ⋅ μ → 0 {\ displaystyle {\ vec {w}} \ cdot {\ vec {\ mu}} _ {0}}{\ vec {w}} \ cdot {\ vec {\ mu}} _ {0} и w → ⋅ μ → 1 {\ displaystyle {\ vec {w}} \ cdot {\ vec {\ mu}} _ {1}}{\ vec {w}} \ cdot {\ vec {\ mu}} _ {1} . В этом случае параметр c в пороговом условии w → ⋅ x →>c {\ displaystyle {\ vec {w}} \ cdot {\ vec {x}}>c}{\vec {w}}\cdot {\vec {x}}>c можно найти явно:

c = w → ⋅ 1 2 (μ → 0 + μ → 1) = 1 2 μ → 1 T Σ 1 - 1 μ → 1 - 1 2 μ → 0 T Σ 0 - 1 μ → 0 {\ displaystyle c = {\ vec {w} } \ cdot {\ frac {1} {2}} ({\ vec {\ mu}} _ {0} + {\ vec {\ mu}} _ {1}) = {\ frac {1} {2} } {\ vec {\ mu}} _ {1} ^ {T} \ Sigma _ {1} ^ {- 1} {\ vec {\ mu}} _ {1} - {\ frac {1} {2} } {\ vec {\ mu}} _ {0} ^ {T} \ Sigma _ {0} ^ {- 1} {\ vec {\ mu}} _ {0}}{\ displaystyle c = {\ vec {w}} \ cdot {\ frac {1} {2}} ({\ vec {\ mu}} _ {0} + {\ vec {\ mu}} _ {1}) = { \ frac {1} {2}} {\ vec {\ mu}} _ {1} ^ {T} \ Sigma _ {1} ^ {- 1} {\ vec {\ mu}} _ {1} - { \ frac {1} {2}} {\ vec {\ mu}} _ {0} ^ {T} \ Sigma _ {0} ^ {- 1} {\ vec {\ mu}} _ {0}} .

Метод Оцу относится к линейному дискриминанту Фишера и был создан для бинаризации гистограммы пикселей в изображении в градациях серого путем оптимального выбора порога черного / белого, который минимизирует внутриклассовую дисперсию и максимизирует межклассовую дисперсию в пределах / между оттенками серого, назначенными ля черного и белого классы пикселей.

Multiclass LDA

В случае, если есть более двух классов, анализ, использование при выводе дискриминанта Фишера, может быть расширен, чтобы найти подпространство , которое, по-видимому, содержит всю изменчивость класса. Это обобщение связано с C. Р. Рао. Предположим, что каждый из классов C имеет среднее значение μ i {\ displaystyle \ mu _ {i}}\ mu _ {i} и такую ​​же ковариацию Σ {\ displaystyle \ Sigma}\ Sigma . Тогда разброс между изменчивостью классов можно определить с помощью выборочной ковариации средних значений класса

Σ b = 1 C ∑ i = 1 C (μ i - μ) (μ i - μ) T {\ displaystyle \ Sigma _ { b} = {\ frac {1} {C}} \ sum _ {i = 1} ^ {C} (\ mu _ {i} - \ mu) (\ mu _ {i} - \ mu) ^ {T }}\ Sigma _ {b} = {\ frac {1} {C}} \ sum _ {i = 1} ^ {C} (\ mu _ {i} - \ mu) (\ mu _ {i} - \ mu) ^ {T}

где μ {\ displaystyle \ mu}\ mu - среднее значение класса. Разделение классов в направлении w → {\ displaystyle {\ vec {w}}}{\ v ec {w}} в этом случае будет задано как

S = w → T Σ bw → w → T Σ. ш → {\ Displaystyle S = {\ гидроразрыва {{\ vec {w}} ^ {T} \ Sigma _ {b} {\ vec {w}}} {{\ vec {w}} ^ {T} \ Sigma {\ vec {w}}}}}S = {\ frac {{\ vec {w}} ^ {T} \ Sigma _ {b} {\ vec {w}}} {{ \ vec {w}} ^ {T} \ Sigma {\ vec {w}}}}

Это означает, что когда w → {\displaystyle {\ vec {w}}}{\ v ec {w}} является собственным вектором Σ - 1 Σ b {\ displaystyle \ Sigma ^ {- 1} \ Sigma _ {b}}\ Sigma ^ {- 1} \ Sigma _ {b} , разделение будет равно соответствующему собственному значению.

Если Σ - 1 Σ b {\ displaystyle \ Sigma ^ {- 1} \ Sigma _ {b}}\ Sigma ^ {- 1} \ Sigma _ {b} диагонализируется, вариативность между функциями будет содержаться в подпространстве, охватываемыми собственными инструментами, поддерживает C - 1 наибольшие собственные значения (поскольку Σ b {\ displaystyle \ Sigma _ {b}}\ Sigma _ {b} имеет ранг C - не более 1). Эти собственные конструкции в основном используются для уменьшения признаков, как в PCA. Собственные правила, соответствующие собственные значениям, будут очень чувствительны к точному выбору обучающих данных, и необходимо использовать регуляризацию в следующем разделе.

Если требуется классификация, вместо уменьшения размеров существует ряд альтернативных методов. Например, классы могут быть разделены, и стандартный дискриминант Фишера или LDA используется для классификации каждого раздела. Типичный пример этого - «один против остальных», когда одного класса помещаются в одну группу, а все остальное - в другую, а затем применяется LDA. Это приведет к созданию классификаторов C, результаты которых будут объединены. Другой распространенный метод - это попарная классификация, при которой новый классификатор создается для каждой пары классов (всего получается C (C - 1) / 2 классификатора), при этом отдельные классификаторы объединяются для получения окончательной классификации.

Инкрементальный LDA

Типичная реализация метода LDA требует, чтобы все образцы были доступны заранее. Однако бывают ситуации, когда весь набор данных недоступен, входные данные наблюдаются как поток. В этом случае желательно, чтобы извлечение признаков LDA имело возможность обновлять обнаруженные признаки LDA путем наблюдения за новыми выборками без запуска алгоритма для всего набора данных. Например, во многих приложениях реального времени, таких как мобильная робототехника или онлайн-распознавание лиц, важно обновлять извлеченные функции LDA, как только доступны новые наблюдения. Метод извлечения признаков LDA, который может обновлять особенности LDA, представляет собой инкрементный алгоритм LDA, и эта идея широко изучалась в течение последних двух десятилетий. Чаттерджи и Ройчоудхури предложили инкрементный самоорганизующийся алгоритм LDA для обновления функций LDA. В другой работе Демир и Озмехметы предложили онлайн-алгоритмы локального обучения для системы обновления функций LDA с использованием исправления ошибок и правил обучения Hebbian. Позже Aliyari et al. производные быстрые инкрементные алгоритмы для обновления функций LDA путем наблюдения за новыми образцами.

Практическое использование

На практике средние значения классов и ковариации неизвестны. Однако их можно оценить по обучающей выборке. Вместо точного значения в приведенных выше уравнениях можно использовать либо оценку максимальная правдоподобия , либо максимальная апостериорная оценка. Хотя оценки ковариации могут быть оптимальными в некотором смысле, это не означает, что результирующий дискриминант, полученный путем подстановки этих значений, является оптимальным в любом смысле, даже если предположение о нормально распределенных классах верно.

Еще одна сложность при применении LDA и дискриминанта Фишера к реальным данным, когда количество измерений каждой выборки (т.е. размерность каждого события данных) превышает количество выборок в каждом классе. В этом случае оценки ковариации не имеют полного ранга, поэтому их нельзя инвертировать. Есть несколько способов справиться с этим. Один из них - использовать псевдообратную матрицу вместо обычной обратной матрицы в приведенных выше формулах. Однако лучшей числовой достижения можно достичь, сначала спроецировав проблему на подпространство, охватываемое Σ b {\ displaystyle \ Sigma _ {b}}\ Sigma _ {b} . Другая стратегия работы с небольшим размером выборки - использование сжатия ковариационная матрица, которую математически можно выразить как

Σ = (1 - λ) Σ + λ I {\ displaystyle \ Sigma = (1- \ lambda) \ Sigma + \ lambda I \,}\ Sigma = (1- \ lambda) \ Sigma + \ lambda I \,

, где I {\ displaystyle I}Я - единичная матрица, а λ {\ displaystyle \ lambda}\ lambda - интенсивность усадки или параметр регуляризации. Это приводит к структуре регуляризованного дискриминантного анализа или дискриминантного анализа усадки.

Кроме того, во многих практических случаях линейные дискриминанты не подходят. Дискриминант LDA и Фишера может быть расширен для использования в нелинейной классификации с помощью трюка ядра . Здесь исходные наблюдения эффективно в нелинейном пространстве более высокой размерности. Тогда линейная классификация в этом нелинейном пространстве эквивалентна нелинейной классификации в исходном пространстве. Наиболее часто используемым примером этого является дискриминант Фишера ядра.

LDA можно обобщить до множественного дискриминантного анализа, где c становится категориальной переменной с N возможными состояниями, вместо двух. Аналогично, если условные плотности классов p (x → ∣ c = i) {\ displaystyle p ({\ vec {x}} \ mid c = i)}{\ displaystyle p ({\ vec {x}} \ mid c = i)} нормальны с общими ковариациями, достаточная статистика для P (c ∣ x →) {\ displaystyle P (c \ mid {\ vec {x}})}{\ displaystyle P (c \ mid {\ vec {x}})} - это значения N проекций, которые имеют подпространством, охватываемым N означает, аффинно спроецированным матрицей обратной ковариации. Эти проекции могут быть найдены путем решения обобщенной задачи на собственные значения, где числитель - это ковариационная матрица, сформированная путем обработки средних значений как выборок, знаменатель - это общая ковариационная матрица. Подробнее см. «Мультикласс LDA » выше.

Приложения

В дополнение к примерам, приведенным ниже, LDA использует в позиционирование и продуктов продуктами.

Прогнозирование банкротства

В прогноз банкротства, основанный на коэффициентах бухгалтерского учета и других финансовых чисел, систематический дискриминантный анализ был первым систематическим объяснениями, какие фирмы вступили в банкротство, какие выжили. Несмотря на ограничения, в том числе известное несоответствие нормального распределения LDA, Эдвард Альтман 1968 по-прежнему является ведущей моделью в практических приложениях.

Распознавание лиц

В компьютеризированном распознавании лиц представленное лицо представлено большим количеством пикселей. Здесь в первую очередь используется линейный дискриминантный анализ, чтобы уменьшить количество признаков до более высокого числа перед классификацией. Каждый из новых размеров представляет собой линейную комбинацию значений пикселей, образующих шаблон. Линейные комбинации, полученные с использованием линейного дискриминанта Фишера, называются лицами Фишера, а те, которые получены с помощью соответствующего анализа главных компонентов, называются собственными гранями.

Маркетинг

В маркетинге дискриминантный анализ, когда-то часто используется для факторов, которые различают разные типы продуктов на основе опросов или других форм собранных данных. Логистическая регрессия или другие методы сейчас используются чаще. Использование дискриминантного анализа в маркетинге можно описать посредством шагов:

  1. Сформулировать проблему и собрать данные - Определить характерные атрибуты, которые используют для оценки продуктов в этой категории - Используйте количественные методы маркетинга исследования (такие как опросы ) для сбора данных от выборки популярных клиентов относительно их оценок всех атрибутов продукта. Стадия сбора данных обычно выполняется профессионалами в области маркетинговых исследований. Вопросы опроса просят респондента оценить продукт от одного до пяти (или от 1 до 7, или от 1 до 10) по ряду атрибутов, выбранных исследователем. Выбирается от пяти до двадцати атрибутов. Они могут включить в себя такие вещи, как простота использования, вес, точность, долговечность, цветность, цена или размер. Выбранные атрибуты будут различаться в зависимости от изучаемого продукта. Тот же вопрос задается обо всех продуктах в исследовании. Данные для нескольких продуктов кодируются и вводятся в статистическую программу, такую ​​как R, SPSS или SAS. (Этот шаг тот же, что и в факторном анализе.)
  2. Оцените коэффициенты дискриминантной функции и определите статистическую значимость и достоверность - выберите соответствующий метод дискриминантного анализа. Прямой метод включает оценку дискриминантной функции, так что все предикторы оцениваются одновременно. Пошаговый метод входит в предикторы последовательных. Метод двух групп следует использовать, когда зависимая переменная имеет две категории или состояния. Метод множественного дискриминанта используется, когда зависимая переменная имеет три или более категориальных состояний. Используйте лямбда Уилкса для проверки значимости в SPSS или F stat в SAS. Наиболее распространенный метод, используемый для проверки достоверности, - это раздел выборки на выборку оценки или анализа и выборку для проверки или задержку. Выборка используется при построении дискриминантной функции. Проверочная выборка используется для построения матрицы, которая содержит количество правильно классифицированных и неправильно классифицированных случаев. Процент правильно классифицированных случаев называется коэффициентом совпадения.
  3. Нанесите результаты на двумерную карту, определите размеры и интерпретируйте результаты. Статистическая программа (или связанный с ней модуль) показывает результаты. На карте будет нанесен каждый продукт (обычно в двухмерном изображении). Расстояние между товарами друг от друга показывает насколько они разные. Размеры должны быть помечены исследователем. Это требует субъективного суждения и часто очень сложно. См. картирование восприятия.

Биомедицинские исследования

Основное применение дискриминантного анализа в медицине - оценка тяжести состояния пациента и прогноз исхода заболевания. Например, при ретроспективном анализе пациентов делятся на группы по степени тяжести заболевания - легкая, среднетяжелая и тяжелая форма. Затем изучаются результаты клинических и лабораторных анализов с помощью статистически различающихся показателей в исследуемых группах. Используя эти переменные, строятся дискриминантные функции, которые обеспечивают объективно классифицировать заболевание будущего пациента на легкую, среднюю или тяжелую форму.

В биологии аналогичные принципы используются для классификации и определения групп различных биологических объектов, например, для определения типов фагов Salmonella enteritidis на основе инфракрасных спектров преобразованием Фурье, для обнаружения источника Escherichia coli при изучении его факторов вирулентности и т. д.

Науки о Земле

Этот метод можно использовать для разделения зон изменения. Например, когда доступны разные данные из разных зон, дискриминантный анализ может найти закономерность в данных и эффективно ее классифицировать.

Сравнение с логистической регрессией

Анализ дискриминантной функции очень похож на логистическая регрессия, и оба они могут для ответа на одни и те же вопросы исследования. Логистическая регрессия не имеет такого количества предположений и ограничений, как дискриминантный анализ. Однако, когда допущения дискриминантного анализа выполняются, это более действенно, чем логистическая регрессия. В отличие от логистической регрессии, дискриминантный анализ можно использовать с небольшими размерами выборки. Было показано, что при равных объемах выборки и сохранении однородности дисперсии / ковариации дискриминантный анализ более точен. Несмотря на все эти преимущества, логистическая регрессия, тем не менее, стала обычным выбором, поскольку допущения дискриминантного анализа выполняются редко.

Линейный дискриминант в высокой размерности

Геометрические аномалии в высокой размерности приводят к хорошо известному проклятию размерности. Тем не менее, правильное использование явления концентрации меры может облегчить вычисления. Важный случай этих явлений размерности был выделен Донохо и Таннером: если выборка существенно многомерна, то каждая точка может быть отделена от остальной части выборки линейным неравенством с высокой вероятностью, даже для экспоненциально больших выборок. Эти линейные неравенства могут быть выбраны в стандартной (фишеровской) форме линейного дискриминанта для богатого семейства вероятностных распределений. В частности, такие теоремы доказываются для логарифмически вогнутых распределений, включая многомерное нормальное распределение (доказательство основано на неравенствах концентрации для логарифмически вогнутых мер) и для мер произведения на многомерном куб (это доказано с помощью неравенства концентрации Талагранда для вероятностных пространств произведения). Разделимость данных с помощью классических линейных дискриминантов упрощает проблему исправления ошибок для систем искусственного интеллекта в большой размерности.

См. Также
Ссылки
Дополнительная литература
Внешние ссылки
В Викиверситете есть учебные ресурсы о анализе дискриминантной функции
Последняя правка сделана 2021-05-27 10:31:25
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте