Дискриминационная модель

редактировать

Дискриминационные модели, также называемые условными моделями или обратными моделями, являются классом контролируемого машинного обучения, используемого для классификации или регрессии. Они различают границы принятия решений путем вывода знаний из наблюдаемых данных. Это отличается от идеи генеративных или прямых моделей, а дискриминационные модели делают меньше предположений о базовом распределении данных и больше полагаются на качество данных.

Например. Если задача классификации состоит в том, чтобы разделить изображения кошек и собак, то модель такого типа сможет только определить, является ли изображение кошкой или собакой. Это решается в соответствии с наиболее похожим примером из данных обучения (см. контролируемое обучение ). С другой стороны, генеративная модель сможет создать новую картину любого класса.

Типичные дискриминационные модели включают логистическую регрессию (LR), вспомогательные векторные машины (SVM), условные случайные поля (CRF) (заданные выше неориентированный граф), деревья решений, нейронные сети и многие другие. Типичные подходы к генеративной модели включают наивные байесовские классификаторы, модели гауссовой смеси и другие.

Содержание

1 Определение
- 1.1 Чистая дискриминационная модель по сравнению с условной моделью
2 Типичные подходы к дискриминативному моделированию
- 2.1 Линейный классификатор
- 2.2 Логистическая регрессия (LR)
- 2.3 Машина опорных векторов
3 Контраст с генеративной моделью
- 3.1 Контраст в подходах
- 3.2 Преимущества и недостатки в приложении
  - 3.2.1 Преимущества
  - 3.2.2 Недостатки
4 Оптимизация в приложениях
5 Типы
6 См. Также
7 Ссылки

Определение

В отличие от генеративного моделирования, которое изучает совместную вероятность $P (x, y) {\ displaystyle P (x, y)}$ $P (x, y)$ , дискриминативное моделирование изучает $P (y | x) {\ displaystyle P (y | x)}$ $P (y | x)$ или прямое отображение данной ненаблюдаемой переменной (цель) $x {\ displaystyle x}$ $x$ метка класса $y {\ displaystyle y}$ $y$ зависела от наблюдаемых переменных (обучающих выборок). Например, в распознавании объекта, $x {\ displaystyle x}$ $x$ скорее всего будет вектором необработанных пикселей (или функций, извлеченных из необработанных пикселей изображения). В рамках вероятностной модели это делается путем моделирования условного распределения вероятностей $P (y | x) {\ displaystyle P (y | x)}$ $P (y | x)$ , которое можно использовать для прогнозирования $y {\ displaystyle y}$ $y$ из $x {\ displaystyle x}$ $x$ . Обратите внимание, что все еще существует различие между условной моделью и дискриминативной моделью, хотя чаще они просто классифицируются как дискриминативная модель.

Чистая дискриминативная модель против условной модели

Условная модель моделирует условное распределение вероятностей, тогда как традиционная дискриминативная модель направлена на оптимизацию отображения входных данных на наиболее похожие обученные выборки.

Типичные подходы к дискриминативному моделированию

Следующий подход основан на предположении, что ему задан обучающий набор данных $D = {(xi; yi) | я ≤ N ∈ Z} {\ displaystyle D = \ {(x_ {i}; y_ {i}) | i \ leq N \ in \ mathbb {Z} \}}$ ${\ displaystyle D = \ {(x_ {i}; y_ {i}) | i \ leq N \ in \ mathbb {Z} \}}$ , где $yi {\ displaystyle y_ {i}}$ $y_{i}$ - соответствующий вывод для входа $xi {\ displaystyle x_ {i}}$ $x_ {i}$ .

Линейный классификатор

Мы намерены использовать функция $f (x) {\ displaystyle f (x)}$ $f (x)$ для моделирования поведения того, что мы наблюдали из набора обучающих данных с помощью метода линейного классификатора. Используя объединенный вектор признаков $ϕ (x, y) {\ displaystyle \ phi (x, y)}$ $\ phi (x, y)$ , решающая функция определяется как:

f (x, w) = arg ⁡ max yw T ϕ (x, y) {\ displaystyle f (x, w) = \ arg \ max _ {y} w ^ {T} \ phi (x, y)}

{\ displaystyle f (x, w) = \ arg \ max _ {y} w ^ {T} \ phi (x, y)}

Согласно интерпретации Мемишевича, $вес T ϕ (x, y) {\ displaystyle w ^ {T} \ phi (x, y)}$ ${\ displaystyle w ^ {T} \ фи (x, y)}$ , что также равно $c (x, y; w) {\ displaystyle c (x, y; w)}$ ${\ displaystyle c (x, y; w)}$ , вычисляет оценку, которая измеряет вычислимость ввода $x {\ displaystyle x}$ $x$ с потенциальным выходом $y { \ Displaystyle y}$ $y$ . Затем $arg ⁡ max {\ displaystyle \ arg \ max}$ ${\ displaystyle \ arg \ max}$ определяет класс с наивысшим баллом.

Логистическая регрессия (LR)

Поскольку функция потерь 0-1 широко используется в теории принятия решений, условное распределение вероятностей $P (y | x; w) {\ displaystyle P (y | x; w)}$ ${\ displaystyle P (y | x; w)}$ , где $w {\ displaystyle w}$ $ш$ - вектор параметров для оптимизации обучающих данных, может быть пересмотрено следующим образом для модели логистической регрессии:

P (y | x; w) = 1 Z (x; w) exp ⁡ (w T ϕ (x, y)) {\ displaystyle P (y | x ; w) = {\ frac {1} {Z (x; w)}} \ exp (w ^ {T} \ phi (x, y))}

{\ displaystyle P (y | x; w) = {\ frac {1} {Z (x; w)}} \ exp (w ^ {T} \ phi (x, y))}

, где

Z (x ; вес) знак равно ∑ Y ехр ⁡ (вес T ϕ (x, y)) {\ displaystyle Z (x; w) = \ textstyle \ sum _ {y} \ displaystyle \ exp (w ^ {T} \ phi (x, y))}

{\ displaystyle Z (Икс; вес) = \ textstyle \ сумма _ {у} \ ​​Displaystyle \ ехр (w ^ {T} \ phi (х, y))}

Уравнение выше представляет логистическую регрессию. Обратите внимание, что основное различие между моделями заключается в том, как они вводят апостериорную вероятность. Апостериорная вероятность выводится из параметрической модели. Затем мы можем максимизировать параметр с помощью следующего уравнения:

L (w) = ∑ i log ⁡ p (yi | xi; w) {\ displaystyle L (w) = \ textstyle \ sum _ {i} \ displaystyle \ log p (y ^ {i} | x ^ {i}; w)}

{\ displaystyle L (w) = \ textstyle \ sum _ {i} \ displaystyle \ log p (y ^ {i} | x ^ {i}; w)}

Его также можно заменить уравнением log-loss ниже:

l log (xi, yi, c (xi; w)) = - журнал ⁡ p (yi | xi; w) = журнал ⁡ Z (xi; w) - w T ϕ (xi, yi) {\ displaystyle l ^ {\ log} (x ^ {i }, y ^ {i}, c (x ^ {i}; w)) = - \ log p (y ^ {i} | x ^ {i}; w) = \ log Z (x ^ {i}; w) -w ^ {T} \ phi (x ^ {i}, y ^ {i})}

{\ displaystyle l ^ {\ log} (x ^ {i}, y ^ {i}, c (x ^ {i}; w)) = - \ log p (y ^ {i} | x ^ {i}; w) = \ log Z (x ^ {i}; w) -w ^ {T} \ phi (x ^ {i}, y ^ {i})}

Поскольку log-loss является дифференцируемым, можно использовать метод на основе градиента для оптимизировать модель. Глобальный оптимум гарантирован, поскольку целевая функция выпуклая. Градиент логарифма правдоподобия представлен следующим образом:

∂ L (w) ∂ w = ∑ i ϕ (xi, yi) - E p (y | xi; w) ϕ (xi, y) {\ displaystyle {\ frac {\ partial L (w)} {\ partial w}} = \ textstyle \ sum _ {i} \ displaystyle \ phi (x ^ {i}, y ^ {i}) - E_ {p (y | x ^ { i}; w)} \ phi (x ^ {i}, y)}

{\ displaystyle {\ frac {\ partial L (w)} {\ partial w}} = \ textstyle \ sum _ {i} \ displaystyle \ phi (x ^ {i}, y ^ {i}) - E_ {p (y | x ^ {i}; w)} \ phi (x ^ {i}, y)}

где $E p (y | xi; w) {\ displaystyle E_ {p (y | x ^ {i}; w)}}$ ${\ displaystyle E_ {p (y | x ^ {i}; w)}}$ - математическое ожидание $p (y | xi; w) {\ displaystyle p (y | x ^ {i}; w)}$ ${\ displaystyle p (y | x ^ {i}; w)}$ .

Вышеупомянутый метод обеспечит эффективное вычисление для относительно небольшого количества классификации.

Машина опорных векторов

Другой непрерывной (но не дифференцируемой) альтернативой 0/1-потере является «потеря на шарнире», которую можно определить как следующее уравнение

lhinge (xi, yi, c (xi, yi, w)) = max y (w T ϕ (xi + y) + l 0/1 (xi, yi, c (xi; w))) - w T ϕ (xi, yi). {\ displaystyle l ^ {шарнир} (x ^ {i}, y ^ {i}, c (x ^ {i}, y ^ {i}, w)) = \ max _ {y} (w ^ {T } \ phi (x ^ {i} + y) + l ^ {0/1} (x ^ {i}, y ^ {i}, c (x ^ {i}; w))) - w ^ {T } \ phi (x ^ {i}, y ^ {i}).}

{\ displaystyle l ^ {шарнир} (x ^ {i}, y ^ {i}, c (x ^ {i}, y ^ {i}, w)) = \ max _ {y} (w ^ {T} \ phi (x ^ {i} + y) + l ^ {0/1} (x ^ {i}, y ^ {i}, c (x ^ {i}; w))) - ш ^ {T} \ phi (x ^ {i}, y ^ {i}).}

Потеря шарнира измеряет разницу между максимальной уверенностью, которую классификатор имеет по всем классам, и уверенностью, которую он имеет в правильном классе. При вычислении этого максимума все неправильные классы получают «фору», добавляя 1 к достоверности. В результате потеря петли равна 0, если уверенность в правильном классе как минимум на 1 больше, чем уверенность в ближайшем последующем наблюдении. Несмотря на то, что потеря шарнира не дифференцируема, она также может привести к поддающемуся устранению варианту проблемы обучения с потерей 0/1, поскольку потеря шарнира позволяет преобразовать ее в эквивалентную ограниченную оптимизацию проблема.

Контраст с генеративной моделью

Контраст в подходах

Допустим, нам даны метки классов $m {\ displaystyle m}$ $m$ (классификация) и $n {\ displaystyle n}$ $n$ переменные характеристик, $Y: {y 1, y 2,…, ym}, X: {x 1, x 2,…, xn} {\ Displaystyle Y: \ {y_ {1}, y_ {2}, \ ldots, y_ {m} \}, X: \ {x_ {1}, x_ {2}, \ ldots, x_ {n} \} }$ ${\ displaystyle Y: \ {y_ {1}, y_ {2}, \ ldots, y_ {m} \}, X: \ {x_ {1}, x_ {2}, \ ldots, x_ {n} \}}$ в качестве обучающих выборок.

Генеративная модель принимает совместную вероятность $P (x, y) {\ displaystyle P (x, y)}$ $P (x, y)$ , где $x {\ displaystyle x}$ $x$ - вход, а $y {\ displaystyle y}$ $y$ - метка, и предсказывает наиболее возможную известную метку $y ~ ∈ Y {\ displaystyle {\ widetilde {y }} \ in Y}$ ${\ displaystyle {\ widetilde {y}} \ in Y}$ для неизвестной переменной $x ~ {\ displaystyle {\ widetilde {x}}}$ ${\ displaystyle {\ widetilde {x}}}$ с использованием теоремы Байеса.

Дискриминационные модели, в отличие от генеративных моделей, не позволяют генерировать выборки из совместного распределения наблюдаемых и целевых переменных. Однако для таких задач, как классификация и регрессия, которые не требуют совместного распределения, дискриминантные модели могут дать более высокую производительность (отчасти потому, что у них меньше переменных для вычисления). С другой стороны, генеративные модели обычно более гибкие, чем дискриминационные модели, в выражении зависимостей в сложных задачах обучения. Кроме того, большинство разборчивых моделей по своей природе контролируются и не могут легко поддерживать обучение без учителя. Детали, специфичные для конкретного приложения, в конечном итоге определяют целесообразность выбора дискриминирующей или генеративной модели.

Дискриминативные модели и генеративные модели также различаются тем, что вводят апостериорную возможность. Чтобы сохранить наименьшие ожидаемые потери, необходимо минимизировать ошибочную классификацию результатов. В дискриминативной модели апостериорные вероятности, $P (y | x) {\ displaystyle P (y | x)}$ ${\ displaystyle P (y | x)}$ , выводятся из параметрической модели, где параметры берутся из данных обучения. Точки оценки параметров получаются путем вычисления максимизации вероятности или распределения по параметрам. С другой стороны, учитывая, что генеративные модели фокусируются на совместной вероятности, класс апостериорной возможности $P (k) {\ displaystyle P (k)}$ $P (k)$ рассматривается в теореме Байеса., то есть

P (y | x) = p (x | y) p (y) ∑ ip (x | i) p (i) = p (x | y) p (y) p ( Икс) {\ Displaystyle Р (Y | Икс) = {\ гидроразрыва {р (х | Y) р (Y)} {\ textstyle \ sum _ {я} р (х | я) р (я) \ Displaystyle}} = {\ frac {p (x | y) p (y)} {p (x)}}}

{\ displaystyle P (y | x) = {\ frac {p (x | y) p (y)} {\ textstyle \ sum _ {i} p (x | я) п (я) \ Displaystyle}} = {\ гидроразрыва {р (х | у) р (у)} {р (х)}}}

Преимущества и недостатки в приложении

В повторных экспериментах применяется логистическая регрессия и наивный байесовский метод здесь для различных моделей в задаче бинарной классификации дискриминантное обучение приводит к более низким асимптотическим ошибкам, а генеративное - к более высоким асимптотическим ошибкам быстрее. Однако в совместной работе Улусоя и Бишопа «Сравнение генерирующих и дискриминационных методов для обнаружения и классификации объектов» они заявляют, что приведенное выше утверждение верно только в том случае, если модель является подходящей для данных (т.е. распределение данных правильно моделируется генеративным модель).

Преимущества

Существенными преимуществами использования дискриминантного моделирования являются:

Более высокая точность, что в основном приводит к лучшему результату обучения.
Позволяет упростить ввод и обеспечивает прямой подход к $P (y | x) {\ displaystyle P (y | x)}$ $P (y | x)$
Экономия вычислительных ресурсов
Создает более низкие асимптотические ошибки

По сравнению с преимуществами использования генеративного моделирования:

Принимает во внимание все данные, что может привести к более медленной обработке как недостаток
Требуется меньше обучающих выборок
Гибкая структура, которая может легко взаимодействовать с другими потребностями приложения

Недостатки

Метод обучения обычно требует нескольких методов численной оптимизации
Аналогично определению, для дискриминативной модели потребуется комбинация нескольких подзадач для решения сложной реальной проблемы

Оптимизация в приложениях

Поскольку как преимущества, так и недостатки присутствуют на двустороннем f моделирование, сочетание обоих подходов будет хорошим моделированием на практике. Например, в статье Марраса A Joint Discriminative Generative Model for Deformable Model Construction and Classification он и его соавторы применяют комбинацию двух моделей для классификации лиц моделей и получают более высокую точность, чем традиционный подход.

Точно так же Келм также предложил комбинацию двух моделей для классификации пикселей в своей статье «Объединение генеративных и дискриминирующих методов для классификации пикселей с многоканальным обучением».

В процессе выделения отличительных признаков перед кластеризацией анализ главных компонентов (PCA), хотя и обычно используется, не обязательно является дискриминационным подходом. Напротив, LDA является дискриминационным. Линейный дискриминантный анализ (LDA) обеспечивает эффективный способ устранения недостатка, который мы перечислили выше. Как мы знаем, дискриминантная модель требует комбинации нескольких подзадач перед классификацией, и LDA предоставляет соответствующее решение этой проблемы за счет уменьшения размерности.

В статье Байерлейн ДИСКРИМИНАЦИОННАЯ КОМБИНАЦИЯ МОДЕЛЕЙ комбинация дискриминационных моделей обеспечивает новый подход к автоматическому распознаванию речи. Это не только помогает оптимизировать интеграцию различных типов моделей в одно логлинейное апостериорное распределение вероятностей. Комбинация также направлена на минимизацию эмпирических ошибок в словах обучающих выборок.

В статье «Унифицированная и дискриминационная модель для уточнения запросов» Гуо и его партнеры используют унифицированную дискриминантную модель для уточнения запросов с использованием линейного классификатора и успешно получают гораздо более высокий уровень точности. В эксперименте, который они разрабатывают, также рассматривается генеративная модель в сравнении с унифицированной моделью. Как и ожидалось в реальном приложении, генеративная модель работает хуже всех по сравнению с другими моделями, включая модели без их улучшения.

Типы

Примеры дискриминационных моделей, используемых в машинном обучении, включают:

Логистическая регрессия, тип обобщенной линейной регрессии, используемый для прогнозирования двоичные или категориальные выходные данные (также известные как классификаторы максимальной энтропии )
Поддерживающие векторные машины
Повышение (метаалгоритм)
Условные случайные поля
Линейная регрессия
Нейронные сети
Случайные леса
Персептроны

См. Также

Математический портал

Генеративная модель

Ссылки