Алгоритм ожидания - максимизации

редактировать

Итерационный метод поиска оценок максимального правдоподобия в статистических моделях

В статистике, алгоритм ожидания - максимизации (EM) - это итерационный метод для нахождения (локального) максимальный правдоподобия или максимальный апостериорный (MAP) оценки параметров в статистических моделях, где модель зависит от ненаблюдаемых скрытых чисел. Итерация EM проходит между выполнением этапа ожидания (E), который выполняет ожидаемую функцию для ожидания журнал-правдоподобия, оцененный с использованием текущих параметров, этапом максимизации (M), вычисляет параметры, максимизирующие логарифмическую правдоподобие, найденную на шаге E Эти методы используются для определения определения скрытых на следующем этапе E.

ЭМ-кластеризация данных извержении Старый Верный. Случайная исходная модель (которая из-за разных масштабов кажется двумя очень плоскими и широкими сферами) соответствует наблюдаемым данным. На первых страницах модель простого, но затем сходится к двум режимам гейзера. Визуализируется с помощью ELKI.

Содержание

1 История
2 Введение
3 Описание
4 Свойства
5 Подтверждение правильности
6 В качестве процедуры максимизации - максимизации
7 Приложения
8 Фильтрация и сглаживание EM-алгоритмов
9 Варианты
- 9.1 Алгоритм α-EM
10 Связь с вариационными байесовскими методами
11 Геометрическая интерпретация
12 Примеры
- 12.1 Гауссова смесь
  - 12.1.1 Шаг E
  - 12.1.2 Шаг M
  - 12.1.3 Завершение
  - 12.1.4 Обобщение
- 12.2 Усеченная и цензурированная регрессия
13 Альтернативы
14 См. Также
15 Ссылки
16 Дополнительная литература
17 Внешние ссылки

История

Алгоритм EM был объяснен и получил свое название в классической статье 1977 года Артуром Демпстером, Нэн Лэрд и Дональд Рубин. Они отметили, что этот метод «много раз предлагался при обстоятельствах» более ранними авторами. Один из первых - это метод подсчета генов для оценки частот аллелей по Седрику Смиту. Очень подробное описание метода ЭМ для экспоненциальных семейств было опубликовано Рольфом Сундбергом в его диссертации и нескольких статьях после его сотрудничества с Пер Мартин-Лёф и Андерсом Мартином-Лёфом. Статья Демпстера - Лэрда - Рубина 1977 г. обобщила этот метод и наметила анализ сходимости для более широкого класса проблем. В статье Демпстера - Лэрда - Рубина ЭМ-метод определен как важный инструмент статистического анализа.

Анализ сходимости алгоритма Демпстера - Лэрда - Рубина был некорректным, и С. опубликовал правильный анализ сходимости. Ф. Джефф Ву в 1983 году. Доказательство Ву установило сходимость метода ЭМ вне экспоненциального семейства, как утверждал Демпстер-Лэрд-Рубин.

Введение

Алгоритм EM используется для поиска (локальных) параметров правдоподобия статистической модели в случаях, когда уравнения не могут быть решены напрямую. Обычно эти модели включают скрытые переменные в дополнение к неизвестным параметрам и известным данным наблюдений. То есть либо данных существует пропущенных значений, либо модель может быть сформулирована более просто, допуская существование дополнительных ненаблюдаемых точек данных. Например, модель смеси можно описать более просто, если предположить, что последняя точка имеет ненаблюдаемую точку данных или скрытую переменную, определяющую компонент смеси, соответствующую каждую точку данных.

Для поиска решений с максимальным правдоподобием обычно требуется брать производные от функции правдоподобия по всем неизвестным значениям, параметрам и скрытым переменным и используемым уравнениям. В статистических моделях со скрытыми переменными это обычно невозможно. Вместо этого обычно является набором взаимосвязанных параметров, требуемых параметров, используемых друг с другом.

Алгоритм EM исходит из наблюдения, что существует способ решить эти два набора инструментовенно. Можно просто выбрать два произвольных значения для одного набора неизвестных, использовать их для оценки второго набора, затем использовать эти новые значения, чтобы найти лучшую оценку первого набора, а затем продолжить чередовать эти два, пока оба результата не получат. сходятся к неподвижным точкам. Не очевидно, что это сработает, но можно доказать, что в данном контексте это работает, и что производная вероятность (произвольно близка) к нулю в этой точке, что, в свою очередь, означает, что точка является либо максимумом, либо a седловая точка. Как правило, могут быть найдены глобальные максимумы без гарантии, что глобальный максимум будет найден. Некоторые вероятности также содержат особенности, то есть бессмысленные максимумы. Например, одно из решений, которое может быть найдено ЭМ в смешанной модели, включает установку одного из компонентов, чтобы иметь нулевую дисперсию, и параметр среднего значения для того же компонента, равный одной из точек данных.

Описание

Учитывая статистическую модель, которая генерирует набор $X {\ displaystyle \ mathbf {X}}$ $\ mathbf {X}$ наблюдаемых данных, набор ненаблюдаемых скрытых данных или отсутствующих значений $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ и вектор неизвестных параметров $θ {\ displaystyle {\ жирный символ {\ theta}} }$ ${\ boldsymbol {\ theta}}$ вместе с функция правдоподобия $L (θ; X, Z) = p (X, Z ∣ θ) {\ displaystyle L ({\ boldsymbol {\ theta}} ; \ mathbf {X}, \ mathbf {Z}) = p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}})}$ ${\ displaystyle L ({\ boldsymbol {\ theta}}; \ mathbf {X}, \ math bf {Z}) = п (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}})}$ , оценка максимальное правдоподобия (MLE) неизвестных факторов путем максимизации предельного правдоподобия наблюдаемых данных

L (θ; X) = p (Икс ∣ θ) знак равно п (Икс, Z ∣ θ) d Z {\ Displaystyle L ({\ boldsymbol {\ theta}}; \ mathbf {X}) = p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) = \ int p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}}) \, d \ mathbf {Z}}

{\ displaystyle L ({\ boldsymbol {\ theta}}; \ mathbf {X}) = p (\ mathbf {X} \ mid { \ boldsymbol {\ theta}}) = \ int p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}}) \, d \ mathbf {Z}}

Однако часто это количество я решаемый (например, если $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ представляет собой последовательность событий, так что количество роста растет.

Алгоритм EM пытается найти MLE предельного правдоподобия, итеративно применяя эти два шага:

Шаг ожидания (шаг E): Определите

Q (θ ∣ θ (t)) {\ displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}

{\ displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}

как ожидаемое значение журнала функция правдоподобия для

θ {\ displaystyle {\ boldsymbol {\ theta}}}

{\ boldsymbol {\ theta}}

относительно текущего условного распределения

Z {\ displaystyle \ mathbf {Z}}

\ mathbf {Z}

с учетом

X {\ displaystyle \ mathbf {X}}

\ mathbf {X}

и текущих оценок параметров

θ (t) {\ displaystyle {\ boldsymbol {\ theta}} ^ {(t)}}

\ boldsymbol \ theta ^ {(t)}

Q (θ ∣ θ (t)) = EZ ∣ X, θ (t) ⁡ [журнал ⁡ L (θ; X, Z)] {\ Displaystyle Q ({\ boldsymbol {\ theta}} \ mid { \ boldsymbol {\ theta}} ^ {(t)}) = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}} ^ {(t)}} \ left [\ log L ({\ boldsymbol {\ theta}}; \ mathbf {X}, \ mathbf {Z}) \ right] \,}

{\ displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}} ^ {(t)}} \ left [\ log L ({\ boldsymbol {\ theta}}; \ mathbf {X}, \ mathbf {Z}) \ right] \,}

Шаг максимизации (шаг M): F и параме тр ы, которые максимизируют это количество:

θ (t + 1) = argmax θ Q (θ ∣ θ (t)) {\ displaystyle {\ boldsymbol {\ theta}} ^ {(t + 1)} = { \ нижний набор {\ boldsymbol {\ theta}} {\ operatorname {arg \, max}}} \ Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) \,}

{\ displaystyle {\ boldsymbol {\ theta}} ^ {(t + 1) } = {\ underset {\ boldsymbol {\ theta}} {\ operatorname {arg \, max}}} \ Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t) }) \,}

Типичные модели, используемые ЭМ, используют $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ как скрытую переменную, указывающий член в одном из наборов групп:

Наблюдаемые точки данных $X {\ displaystyle \ mathbf {X}}$ $\ mathbf {X}$ могут быть дискретными (принимающими значения в конечном или счетно бесконечном множестве) или непрерывными (последние значения в несчетно бесконечном множестве). С каждой точкой данных может быть связан вектор наблюдений.
пропущенные значения (также известные как скрытые переменные ) $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ являются дискретными взятыми из фиксированного количества значений и с одной скрытой на наблюдаемой единице.
Параметры непрерывными и бывают двух видов: Параметры, которые связаны со всеми точками данных, и параметры, связанные с конкретным значением скрытой переменной (т. Е. Связанные со всеми точками данных, у соответствующая скрытая переменная имеет это значение).

Однако можно применить EM к другим всякие модели.

Мотив следующий. Если известно значение параметров $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ , обычно значение скрытых чисел $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ можно найти, максимизируя логарифмическую вероятность для всех обнаруженных $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ , либо просто перебирая $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ или с помощью такого алгоритма, как алгоритм Баума - Велча для скрытых марковских моделей. И наоборот, если мы знаем значение скрытых чисел $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ , мы можем найти оценку параметров $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ довольно легко, обычно простой способ группировки наблюдаемых точек данных в соответствии с указанными значениями скрытой и усреднения значений или некоторой функции значений точек в каждой группе. Это предполагает итеративный алгоритм в случае, когда и $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ , и $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ неизвестны:

Сначала инициализируйте параметры $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ некоторыми случайными значениями.
Вычислите вероятность каждого возможного значения $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ , учитывая $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ .
Затем используйте только -вычисленные значения $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ для вычислений более точной оценки параметров $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ .
Повторяйте шаги 2 и 3 до сходимости.

Алгоритм, как только что описанный, монотонно приближается к локальному минимуму функции стоимости.

Свойства

Говоря о шаге ожидания (E), это немного похоже на неправильное название. На первом этапе вычисляются фиксированные, зависящие от параметров функции Q. Как только параметры Q известны, они полностью определяются и максимизируются на втором (M) этапе EM-алгоритма.

Хотя итерация EM увеличивает текущие данные (т. Е. Маргинальную) функцию правдоподобия, нет гарантии, что последовательность сходится к оценке значения правдоподобия. Для мультимодальных распределений это означает, что алгоритм EM может сходиться к локальному максимуму наблюдаемой функции правдоподобия данных, в зависимости от начальных значений. Существует множество эвристических или метаэвристических подходов, позволяющих избежать локального максимума, как такой случайный перезапуск восхождение на холм (начиная с нескольких различных случайных начальных оценок θ) или применение смоделированного методы отжига.

EM особенно полезен, когда вероятность является экспоненциальным семейством : шаг E суммой ожиданий достаточной статистики, а шаг M включает максимизацию линейного функции. В таком случае обычно можно получить обновления выражения в закрытой форме для каждого шага, используя формулу Сундберга (опубликованную Рольфом Сундбергом с использованием неопубликованных результатов Согласно Мартин-Лёф и Андерс Мартин-Лёф ).

Метод EM был изменен для вычислений максимальных апостериорных (MAP) оценок для байесовского вывода в исходной статье Демпстера, Лэрда и Рубина.

Существуют другие методы для поиска оценок повышения правдоподобия, как градиентный спуск, сопряженный градиент или варианты алгоритма Гаусса - Ньютона. В отличие от EM, такие методы обычно требуют оценки первой и / или второй производных функций правдоподобия.

Доказательство правильности

Максимизация ожидания работает для улучшения $Q (θ ∣ θ (t)) {\ displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ ${\ displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ вместо прямого улучшения $журнала ⁡ п (Икс ∣ θ) {\ Стиль отображения \ журнал р (\ mathbf {X} \ ми d {\ boldsymbol {\ theta}})}$ ${\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}})}$ . Здесь показано, что улучшения первого подразумевают улучшения второго.

Для любого $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ с ненулевой вероятностью $p (Z ∣ X, θ) {\ displaystyle p (\ mathbf {Z } \ mid \ mathbf {X}, {\ boldsymbol {\ theta}})}$ ${\ displaystyle p ( \ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}})}$ , мы можем записать

журнал ⁡ p (X ∣ θ) = журнал ⁡ p (X, Z ∣ θ) - журнал ⁡ p (Z ∣ X, θ). {\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) = \ log p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}}) - \ log p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}}).}

{\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) = \ log p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}}) - \ log p (\ mathbf {Z} \ mid \ mathbf {X }, {\ boldsymbol {\ theta}}).}

Мы берем математическое ожидание по возможным значениям неизвестных данных $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ при текущей оценке программы $θ (t) {\ displaystyle \ theta ^ {(t)}}$ $\ theta ^ {(t)}$ путем умножения обеих сторон на $п (Z ∣ Икс, θ (t)) {\ displaystyle p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}} ^ {(t)})}$ ${\ displaystyle p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}} ^ {(t)})}$ и суммирование (или интегрирование) по $Z {\ displaystyle \ mathbf {Z}}$ $\ mathbf {Z}$ . Левая часть представляет собой математическое ожидание константы, поэтому мы получаем:

log ⁡ p (X ∣ θ) = ∑ Z p (Z ∣ X, θ (t)) log ⁡ p (X, Z ∣ θ).) - ∑ Z п (Z ∣ Икс, θ (t)) журнал ⁡ п (Z ∣ X, θ) = Q (θ ∣ θ (t)) + H (θ ∣ θ (t)), {\ displaystyle { \ begin {align} \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) = \ sum _ {\ mathbf {Z}} p (\ mathbf {Z} \ mid \ mathbf {X }, {\ boldsymbol {\ theta}} ^ {(t)}) \ log p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}}) - \ sum _ {\ mathbf {Z}} p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}} ^ {(t)}) \ log p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}}) \\ = Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) + H ({\ boldsymbol {\ theta }} \ mid {\ boldsymbol {\ theta}} ^ {(t)}), \ end {align}}}

{\ displaystyle {\ begin {align} \ log p ( \ mathbf {X} \ mid {\ boldsymbol {\ theta}}) = \ sum _ {\ mathbf {Z}} p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta} } ^ {(t)}) \ log p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}}) - \ sum _ {\ mathbf {Z}} p (\ mathbf { Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}} ^ {(t)}) \ log p (\ mathbf {Z} \ mid \ mathbf {X}, {\ boldsymbol {\ theta}}) \\ = Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) + H ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}), \ end {align}}}

где $H (θ ∣ θ (t)) {\ displaystyle H ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ ${\ displaystyle H ({\ boldsymbol { \ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ определяется отрицательной суммой, которую он заменяет. Это последнее уравнение справедливо для каждого значения $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ , включая $θ = θ (t) {\ displaystyle {\ boldsymbol {\ theta} } = {\ boldsymbol {\ theta}} ^ {(t)}}$ $\ boldsymbol \ theta = \ boldsymbol \ theta ^ {(t)}$ ,

журнал ⁡ p (X ∣ θ (t)) = Q (θ (t) ∣ θ (t)) + H (θ (t) ∣ θ (т)), {\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) = Q ({\ boldsymbol {\ theta}} ^ { (t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) + H ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ { (t)}),}

{\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) = Q ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) + H ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ полужирный символ {\ theta}} ^ {(t)}),}

и вычитание этого последнего уравнения из предыдущих уравнений дает

log ⁡ p (X ∣ θ) - log ⁡ p (X ∣ θ (t)) = Q (θ ∣ θ (t)) - Q (θ (t) ∣ θ (t)) + H (θ ∣ θ (t)) - H (θ (t) ∣ θ (t)), {\ displaystyle \ log p (\ mathbf {X } \ mid {\ boldsymbol {\ theta}}) - \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) = Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) - Q ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) + H ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) - H ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}),}

{\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) - \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) = Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) - Q ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) + H ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) - H ({\ boldsymbol { \ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}),}

Однако Неравенство Гиббса говорит нам, что $H (θ ∣ θ (t)) ≥ H (θ (t) ∣ θ (t)) {\ displaystyle H ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) \ geq H ({\ boldsymbol {\ theta}} ^ {( t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ ${\ displaystyle H ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {( t)}) \ geq ЧАС ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ , поэтому мы можем заключить, что

log ⁡ p (X ∣ θ) - log ⁡ p ( X ∣ θ (t)) ≥ Q (θ ∣ θ (t)) - Q (θ (t) ∣ θ (t)). {\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) - \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) \ geq Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) - Q ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}).}

{\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}}) - \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) \ geq Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)}) - Q ({\ boldsymbol {\ theta}} ^ {(t)} \ mid {\ boldsymbol {\ theta}} ^ {(t)}).}

На словах, выбирая $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ для улучшения $Q (θ ∣ θ (t)) {\ displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ ${\ displaystyle Q ({\ boldsymbol {\ theta}} \ mid {\ boldsymbol {\ theta}} ^ {(t)})}$ вызывает $журнал ⁡ p (Икс ∣ θ) {\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}})}$ ${\ displaystyle \ log p (\ mathbf {X} \ mid {\ boldsymbol {\ theta}})}$ , чтобы улучшить как минимум на столько же.

Как процедура максимизации-максимизации

Алгоритм EM можно рассматривать как два чередующих шага максимизации, то есть как пример спуска координаты. Рассмотрим функцию:

F (q, θ): = E q ⁡ [журнал ⁡ L (θ; x, Z)] + H (q), {\ displaystyle F (q, \ theta): = \ operatorname { E} _ {q} [\ log L (\ theta; x, Z)] + H (q),}

{\ displaystyle F (q, \ theta) : = \ OperatorName {E} _ {q} [\ log L (\ theta; x, Z)] + H (q),}

где q - произвольное распределение вероятностей по ненаблюдаемым данным z, а H (q) - энтропия распределения q. Эту функцию можно записать как

F (q, θ) = - DKL (q ∥ p Z ∣ X (⋅ ∣ x; θ)) + журнал ⁡ L (θ; x), {\ displaystyle F (q, \ theta) = - D _ {\ mathrm {KL}} {\ big (} q \ parallel p_ {Z \ mid X} (\ cdot \ mid x; \ theta) {\ big)} + \ log L (\ theta ; x),}

{\ displaystyle F (q, \ theta) = - D _ {\ mathrm {KL}} {\ big (} q \ parallel p_ {Z \ mid X} (\ cdot \ mid x; \ theta) {\ big)} + \ log L (\ theta; x),}

где $p Z ∣ X (⋅ ∣ x; θ) {\ displaystyle p_ {Z \ mid X} (\ cdot \ mid x; \ theta)}$ ${\ displaystyle p_ {Z \ середина X} (\ cdot \ mid x; \ theta)}$ - условное распределение ненаблюдаемых данных с учетом наблюдаемых данных $x {\ displaystyle x}$ $х$ и $DKL {\ displaystyle D_ {KL}}$ ${\ displaystyle D_ {KL}}$ - Расхождение Кульбака - Лейблера.

Тогда шаги в алгоритме EM можно рассматривать как:

Шаг ожидания: выбрать

q {\ displaystyle q}

q

, чтобы максимизировать

F {\ displaystyle F}

F

q (t) знак равно argmaxq ⁡ F (q, θ (t)) {\ displaystyle q ^ {(t)} = \ operatorname {arg \, max} _ {q} \ F (q, \ theta ^ {( t)})}

{\ displaystyle q ^ {(t)} = \ operatorname {arg \, max} _ {q} \ F (q, \ theta ^ {(t)})}

Шаг максимизации: выберите

θ {\ displaystyle \ theta}

\ theta

, чтобы максимизировать

F {\ displaystyle F}

F

θ (t + 1) знак равн о argmax θ ⁡ F (q (t), θ) {\ displaystyle \ th eta ^ {(t + 1)} = \ operatorname {arg \, max} _ {\ theta} \ F (q ^ {(t) }, \ theta)}

{\ displaystyle \ theta ^ {(t + 1)} = \ operatorname {arg \, max} _ {\ theta} \ F (q ^ {(t)}, \ theta)}

Приложения

EM - это часто используется для кластеризации данных в машинном обучении и компьютерном зрении. В обработка естественного языка два примера алгоритма - это алгоритм Баума - Велча для скрытых марковских моделей и алгоритм-снаружи для неконтролируемой индукции вероятностных контекстно-свободных грамматик.

EM используется для оценки параметров смешанных моделей, особенно в количественной генетике.

в психометрии, EM практически для оценки параметров предмета и скрытых способностей моделей теории отклика предмета.

Благодаря способности работать с отсутствующими данными и наблюдать неидентифицированные переменные, EM становится полезным инструментом для определения цены и управления рисками портфеля.

Алгоритм EM (и его более быстрый вариант максимизация ожидаемого упорядоченного подмножества ) также широко используется в реконструкции изображений, особенно в позитронно-эмиссионной томографии, однофотонной эмиссионной компьютерной томографии и x -ray компьютерная томография. См. Ниже другие быстрые варианты EM.

В проектирование конструкций, структурная идентификация с использованием алгоритма максимизации ожидания (STRIDE) - метод только для вывода свойств естественной вибрации структурной системы с использованием датчиков (см. Эксплуатация Модальный анализ ).

ЭМ-алгоритмы фильтрации и сглаживания

A фильтр Калмана обычно используется для оценки состояния в оперативном режиме, а сглаживатель с минимальной дисперсией может оценивать состояния в автономном режиме или в пакетном режиме. Однако эти решения с минимальной дисперсией требуют оценок параметров в космических условиях. EM-"Программы" Моя книга задач оценивания состояния и параметров.

ЭМ-алгоритмы фильтрации и сглаживания возникают в результате повторения этой двухэтапной процедуры:

E-step: Используйте фильтр Калмана или сглаживатель с минимальной дисперсией, с текущими оценками параметров для получения обновленных оценок состояния.

M-шаг: Используйте отфильтрованные или сглаженные оценки состояния в вычислениях максимального правдоподобия для получения обновленных оценок параметров.

Предположим, что фильтр Калмана или минимальное устройство сглаживания дисперсии работает с измерениями системы с одним входом и одним выходом, которые обладают аддитивным белым шумом. Обновленная оценка дисперсии шума измерения может быть получена из расчета Максимальная правдоподобия

σ ^ v 2 = 1 N ∑ k = 1 N (zk - x ^ k) 2, {\ displaystyle {\ widehat {\ sigma}} _ {v} ^ {2} = {\ frac {1} {N}} \ sum _ {k = 1} ^ {N} {(z_ {k} - {\ widehat {x}} _ { k})} ^ {2},}

{\ displaystyle {\ widehat {\ sigma}} _ {v} ^ {2} = {\ frac {1} {N} } \ sum _ {k = 1} ^ {N} {(z_ {k} - {\ widehat {x}} _ {k})} ^ {2},}

где $x ^ k {\ displaystyle {\ widehat {x}} _ {k}}$ ${\ displaystyle {\ widehat {x}} _ {k}}$ - скалярные оценки выходных данных, рассчитанные фильтр или сглаживание из N скалярных измерений $zk {\ displaystyle z_ {k}}$ $z_{k}$ . Вышеупомянутое обновление также можно применить для обновления шума измерения Пуассона. Аналогично, для авторегрессивного процесса первого порядка обновленной оценки дисперсии шума может быть рассчитана как

σ ^ w 2 = 1 N ∑ k = 1 N (x ^ k + 1 - F ^ x ^ k) 2, {\ displaystyle { \ widehat {\ sigma}} _ {w} ^ {2} = {\ frac {1} {N}} \ sum _ {k = 1} ^ {N} {({\ widehat {x}} _ {k + 1} - {\ widehat {F}} {\ widehat {x}} _ {k})} ^ {2},}

{\ displaystyle {\ widehat {\ sigma}} _ {w} ^ {2} = {\ frac {1} {N}} \ sum _ {k = 1} ^ {N} { ({\ widehat {x}} _ {k + 1} - {\ widehat {F}} {\ widehat {x}} _ {k})} ^ {2},}

где $x ^ k {\ displaystyle {\ widehat {x}} _ {k}}$ ${\ displaystyle {\ widehat {x}} _ {k}}$ и $x ^ k + 1 {\ displaystyle {\ widehat {x}} _ {k + 1}}$ ${\ displaystyle {\ widehat {x}} _ {k + 1}}$ представляют собой скалярные оценки состояния, вычисленные фильтром или сглаживателем. Обновленная оценка коэффициента модели получается с помощью

F ^ = ∑ k = 1 N (x ^ k + 1 - F ^ x ^ k) ∑ k = 1 N x ^ k 2. {\ displaystyle {\ widehat {F} } = {\ frac {\ sum _ {k = 1} ^ {N} ({\ widehat {x}} _ {k + 1} - {\ widehat {F}} {\ widehat {x}} _ {k })} {\ sum _ {k = 1} ^ {N} {\ widehat {x}} _ {k} ^ {2}}}.}

{\ displaystyle {\ widehat {F}} = {\ frac {\ sum _ {k = 1} ^ {N} ({\ widehat {x}} _ {k + 1} - {\ widehat {F}} {\ widehat {x}} _ {k})} {\ sum _ { k = 1} ^ {N} {\ widehat {x}} _ {k} ^ {2}}}.}

Сходимость оценки показателей, приведенным выше, хорошо изучены.

Варианты

Был предложен ряд методов для ускорения иногда медленной сходимости алгоритма EM, например, методы, использующие сопряженный градиент и модифицированные методы Ньютона (Ньютон - Рафсон). Кроме того, EM может установить с ограниченными методами оценки.

Алгоритм максимизации ожидания с расширенными функциями (PX-EM) обеспечивает ускорение за счет "использования" ковариа корректировки "для корректировки анализа шага M, извлекая выгоду из дополнительной информации, содержащейся в вмененном полном объеме данных".

Условная максимизация ожидания (ECM) заменяет каждый шаг M последовательностью шагов условной максимизации (CM), в которой каждый параметр θ i максимизируется индивидуально, при условии, что другие параметры остаются остающимся. Сама по себе идея может быть расширена до алгоритма условной максимизации ожидания (ECME).

Эта идея получила дальнейшее развитие в алгоритме обобщенной максимизации ожидания (GEM), в которой требуется только увеличение функций F как для Шаг E и шаг M, как описано в разделе Как процедура максимизации-максимизации. GEM продолжает развиваться в распределенной среде и показывает многообещающие результаты.

Также возможно рассматривать алгоритм EM как подкласс алгоритма MM (Majorize / Minimize или Minorize / Maximize, в зависимости от контекста), а потому использовать любую технику, разработанную в более общем случае.

Алгоритм α-EM

Q-функция, используемая в алгоритме EM, основанная на логарифмической вероятности. Поэтому он рассматривается как алгоритм log-EM. Использование логарифма правдоподобия может быть обобщено на использование логарифмического отношения правдоподобия. Тогда тогда правдоподобия наблюдаемых данных может быть точно выражено как равенство с использованием логарифмических отношений правдоподобия и дивергенции. Получение этой Q-функции представляет собой обобщенный шаг E. Его максимизация - это обобщенный M шаг. Эта пара называется алгоритмом α-EM, который содержит алгоритм log-EM в качестве подкласса. Таким образом, алгоритм α-EM точ Ясуо Мацуяма, является обобщенным обобщением алгоритма log-EM. Расчет градиента или матрицы Гессе не требуется. Α-EM демонстрирует более быструю сходимость, чем алгоритм log-EM, при выборе α. Алгоритм α-EM приводит к более быстрой версии алгоритма оценки скрытой марковской модели α-HMM.

Связь с вариационными байесовскими методами

ЭМ является частично небайесовским методом правдоподобия. Его окончательный результат дает распределение вероятностей по скрытым переменным (в байесовском стиле) вместе с точечной оценкой для θ (либо оценкой верхней правдоподобия, либо апостериорной модой). Может потребоваться полностью байесовская версия этого, дающая распределение вероятностей по θ и скрытым переменным. Байесовский подход к умозаключениям заключается в том, чтобы рассматривать θ как еще одну скрытую переменную. В этой парадигме исчезает различие между ступенями E и M. При использовании факторизованного Q-приближения, описанного выше (вариационный Байес ), решение может повторяться по каждой скрытой вариации (теперь включая θ) и оптимизировать их по одному. Теперь необходимо k шагов на итерацию, где k - количество скрытых чисел. Для графических моделей это легко сделать, поскольку новый Q зависит только от ее марковского бланка, для эффективного использования можно использовать локальную передачу сообщений.

Геометрическая интерпретация

В информационной геометрии шаг E и шаг M интерпретируются как проекции при двойных аффинных связях, называемых e- подключение и м-подключение ; расхождение Кульбака - Лейблера также может быть понято в этих терминах.

Примеры

Гауссова смесь

Сравнение k-средних и EM на искусственных данных, визуализированных с помощью ELKI. Используя дисперсии, алгоритм EM может точно описывать нормальные распределения, в то время как k-означает разбивает данные на -ячейки Вороного. Центр кластера обозначен более светлым и большим символом.

Анимация, демонстрирующая алгоритм EM, подгоняющий двухкомпонентную модель смеси Гаусса к набору данных Старый Верный. Алгоритм переходит от случайной инициализации к сходимости.

Пусть $x = (x 1, x 2,…, xn) {\ displaystyle \ mathbf {x} = (\ mathbf {x} _ {1}, \ mathbf {x} _ {2}, \ ldots, \ mathbf {x} _ {n})}$ $\ mathbf {x} = (\ mathbf {x} _1, \ mathbf {x} _2, \ ldots, \ mathbf {x} _n)$ быть образцом $n {\ displaystyle n}$ $n$ Независимые наблюдения из смеси двух многомерных нормальных распределений размерности $d {\ displaystyle d}$ $d$ , и пусть $z = (z 1, z 2,…, zn) {\ displaystyle \ mathbf {z} = (z_ {1}, z_ {2}, \ ldots, z_ {n})}$ $\ mathbf {z} = (z_1, z_2, \ ldots, z_n)$ - скрытые переменные, определяющие компонент, из которого происходит наблюдение.

Икс я ∣ (Z i = 1) ∼ N d (μ 1, Σ 1) {\ displaystyle X_ {i} \ mid (Z_ {i} = 1) \ sim {\ mathcal {N}} _ { d} ({\ boldsymbol {\ mu}} _ {1}, \ Sigma _ {1})}

{\ displaystyle X_ {i} \ mid (Z_ {i} = 1) \ sim {\ mathcal {N}} _ {d} ({\ boldsymbol {\ mu}} _ {1}, \ Sigma _ {1})}

X i ∣ (Z i = 2) ∼ N d (μ 2, Σ 2), {\ Displaystyle X_ {i} \ mid (Z_ {i} = 2) \ sim {\ mathcal {N}} _ {d} ({\ boldsymbol {\ mu}} _ {2}, \ Sigma _ {2}),}

{\ displaystyle X_ {i} \ mid (Z_ {i } = 2) \ sim {\ mathcal {N}} _ {d} ({\ boldsymbol {\ mu}} _ {2}, \ Sigma _ {2}),}

где

P ⁡ (Z i = 1) = τ 1 {\ displaystyle \ operatorname {P} (Z_ {i} = 1) = \ тау _ {1} \, }

\ имя оператора {P} (Z_i = 1) = \ tau_1 \,

P ⁡ (Z i = 2) = τ 2 = 1 - τ 1. {\ displaystyle \ operatorname {P} (Z_ {i} = 2) = \ tau _ {2 } = 1- \ tau _ {1}.}

{\ displaystyle \ operatorname {P} (Z_ {i} = 2) = \ tau _ {2} = 1- \ tau _ {1}.}

Цель в том, чтобы оценить неизвестные параметры, представляющие значение смешивания между гауссианы, а также средние и ковариации каждого:

θ = (τ, μ 1, μ 2, Σ 1, Σ 2), {\ displaystyle \ theta = {\ big (} {\ boldsymbol {\ tau}}, {\ boldsymbol {\ mu}} _ {1}, {\ boldsymbol {\ mu}} _ {2}, \ Sigma _ {1}, \ Sigma _ {2} {\ big)},}

{\ displaystyle \ theta = {\ big (} {\ boldsymbol {\ tau}}, {\ boldsymbol {\ mu}} _ {1}, {\ boldsymbol {\ mu}} _ {2 }, \ Sigma _ {1}, \ Sigma _ {2} {\ big)},}

где функция правдоподобия неполных данных имеет вид

L (θ; x) = ∏ i = 1 n ∑ j = 1 2 τ jf (xi; μ j, Σ j), {\ displaystyle L (\ theta; \ mathbf {x}) = \ prod _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2} \ tau _ { j} \ f (\ mathbf {x} _ {i}; {\ жирный символ {\ mu}} _ {j}, \ Sigma _ {j}),}

{\ displaystyle L (\ theta; \ mathbf {x}) = \ prod _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2} \ tau _ {j} \ f (\ mathbf {x } _ {я}; {\ boldsymbol {\ mu}} _ {j}, \ Sigma _ {j}),}

, функция правдоподобия для полных данных -

L (θ; x, z) = p (x, z ∣ θ) Знак равно ∏ я знак равно 1 N ∏ J знак равно 1 2 [е (xi; μ j, Σ j) τ j] I (zi знак равно J), {\ Displaystyle L (\ theta; \ mathbf {x}, \ mathbf {z}) = p (\ mathbf {x}, \ mathbf {z} \ mid \ theta) = \ prod _ {i = 1} ^ {n} \ prod _ {j = 1} ^ {2} \ [f (\ mathbf {x} _ {i}; {\ boldsymbol {\ mu}} _ {j}, \ Sigma _ {j }) \ tau _ {j}] ^ {\ mathbb {I} (z_ {i} = j)},}

{\ displaystyle L (\ theta; \ mathbf {x}, \ mathbf {z}) = p (\ mathbf {x}, \ mathbf {z} \ mid \ theta) = \ prod _ {i = 1} ^ {n} \ prod _ {j = 1} ^ {2} \ [f (\ mathbf {x} _ {i}; {\ boldsymbol {\ mu}} _ {j}, \ Sigma _ {j}) \ tau _ {j}] ^ {\ mathbb {I} (z_ { i} = j)},}

или

L (θ; x, z) = ехр ⁡ {∑ i = 1 n ∑ j = 1 2 I (zi = j) [журнал ⁡ τ j - 1 2 журнал ⁡ | Σ j | - 1 2 (xi - μ j) ⊤ Σ j - 1 (xi - μ j) - d 2 журнал ⁡ (2 π)]}, {\ displaystyle L (\ theta; \ mathbf {x}, \ mathbf {z))}) = \ exp \ left \ {\ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2} \ mathbb {I} (z_ {i} = j) {\ big [} \ log \ tau _ {j} - {\ tfrac {1} {2}} \ log | \ Sigma _ {j} | - {\ tfrac {1} {2}} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) ^ {\ top} \ Sigma _ {j} ^ {- 1 } (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) - {\ tfrac {d} {2}} \ log (2 \ pi) {\ big]} \ right \},}

{\ displaystyle L (\ theta; \ mathbf {x}, \ mathbf {z}) = \ exp \ left \ {\ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2} \ mathbb {I} (z_ {i} = j) {\ big [} \ log \ tau _ {j} - {\ tfrac {1} {2}} \ log | \ Sigma _ {j} | - {\ tfrac {1} {2}} (\ mathbf { x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) ^ {\ top} \ Sigma _ {j} ^ {- 1} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) - {\ tfrac {d} {2}} \ log (2 \ pi) {\ big]} \ right \},}

где $I {\ displaystyle \ mathbb {I}}$ $\ mathbb {I}$ - это индикаторная функция, а $f {\ displaystyle f}$ $f$ - функция плотности вероятности многомерной нормыли.

За один показатель за один показатель $I (zi = j) {\ displaystyle \ mathbb {I} (z_ {i} = j)}$ $\ mathbb {I} (z_i = j)$ равенство нулю, а один показатель равен единице. Таким образом, внутренняя сумма сводится к одному члену.

E step

Учитывая нашу текущую оценку θ, условное распределение Z i определяет теоремой Байеса как пропорциональная высота нормальной плотности, взвешенной по τ:

T j, i (t): = P ⁡ (Z i = j ∣ X i = xi; θ (t)) = τ j (t) f (xi; μ j (t), Σ j (t)) τ 1 (t) f (xi; μ 1 (t), Σ 1 (t)) + τ 2 (t) f (xi; μ 2 (t), Σ 2 (t)). {\ Displaystyle T_ {j, i} ^ {(t)}: = \ operatorname {P} (Z_ {i} = j \ mid X_ {i} = \ mathbf {x} _ {i}; \ theta ^ { (t)}) = {\ frac {\ tau _ {j} ^ {(t)} \ f (\ mathbf {x} _ {i}; {\ boldsymbol {\ mu}} _ {j} ^ {( t)}, \ Sigma _ {j} ^ {(t)})} {\ tau _ {1} ^ {(t)} \ f (\ mathbf {x} _ {i}; {\ boldsymbol {\ mu }} _ {1} ^ {(t)}, \ Sigma _ {1} ^ {(t)}) + \ tau _ {2} ^ {(t)} \ f (\ mathbf {x} _ {i }; {\ boldsymbol {\ mu}} _ {2} ^ {(t)}, \ Sigma _ {2} ^ {(t)})}}.}

{\ displaystyle T_ {j, i} ^ {(t)}: = \ operatorname {P} (Z_ {i} = j \ mid X_ {i} = \ mathbf {x} _ {i}; \ theta ^ {(t)}) = {\ frac {\ tau _ {j} ^ {(t)} \ f (\ mathbf {x} _ {i}; {\ boldsymbol {\ mu} } _ {j} ^ {(t)}, \ Sigma _ {j} ^ {(t)})} {\ tau _ {1} ^ {(t)} \ f (\ mathbf {x} _ {i }; {\ boldsy mbol {\ mu}} _ {1} ^ {(t)}, \ Sigma _ {1} ^ {(t)}) + \ tau _ {2} ^ {(t)} \ f (\ mathbf {x } _ {i}; {\ boldsymbol {\ mu}} _ {2} ^ {(t)}, \ Sigma _ {2} ^ {(t)})}}.}

Они называются «вероятностными членами», которые обычно считаются выходом шага E (хотя это не функция Q, описанная ниже).

Этот шаг E соответствует настройке этой функции для Q:

Q (θ ∣ θ (t)) = EZ ∣ X, θ (t) ⁡ [log ⁡ L (θ; x, Z)] = EZ ∣ X, θ (t) ⁡ [журнал ⁡ ∏ i = 1 n L (θ; xi, Z i)] = EZ ∣ X, θ (t) ⁡ [∑ i = 1 n log ⁡ L ( θ; xi, Z i)] = ∑ i = 1 n EZ i ∣ X; θ (t) ⁡ [журнал ⁡ L (θ; xi, Z i)] = ∑ i = 1 n ∑ j = 1 2 P (Z i = j ∣ X i = xi; θ (t)) журнал ⁡ L ( θ j; xi, j) = ∑ i = 1 n ∑ j = 1 2 T j, i (t) [журнал ⁡ τ j - 1 2 log ⁡ | Σ j | - 1 2 (x i - μ j) ⊤ Σ j - 1 (x i - μ j) - d 2 log ⁡ (2 π)]. {\ displaystyle {\ begin {align} Q (\ theta \ mid \ theta ^ {(t)}) = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, \ mathbf {\ theta} ^ {(t)}} [\ log L (\ theta; \ mathbf {x}, \ mathbf {Z})] \\ = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, \ mathbf {\ theta} ^ {(t)}} [\ log \ prod _ {i = 1} ^ {n} L (\ theta; \ mathbf {x} _ {i}, Z_ {i })] \\ = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, \ mathbf {\ theta} ^ {(t)}} [\ sum _ {i = 1} ^ {n} \ log L (\ theta; \ mathbf {x} _ {i}, Z_ {i})] \\ = \ sum _ {i = 1} ^ {n} \ operatorname {E} _ {Z_ {i} \ mid \ mathbf {X}; \ mathbf {\ theta} ^ {(t)}} [\ log L (\ theta; \ mathbf {x} _ {i}, Z_ {i})] \\ = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2} P (Z_ {i} = j \ mid X_ {i} = \ mathbf {x} _ {i} ; \ theta ^ {(t)}) \ log L (\ theta _ {j}; \ mathbf {x} _ {i}, j) \\ = \ sum _ {i = 1} ^ {n} \ сумма _ {j = 1} ^ {2} T_ {j, i} ^ {(t)} {\ big [} \ log \ tau _ {j} - {\ tfrac {1} {2}} \ log | \ Sigma _ {j} | - {\ tfrac {1} {2}} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) ^ {\ top} \ Sigma _ {j} ^ {- 1} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) - {\ tfrac {d} {2}} \ log (2 \ pi) {\ big]}. \ end {align}}}

{\ displaystyle {\ begin {align} Q (\ theta \ mid \ theta ^ {(t)}) = \ operatorname { E} _ {\ mathbf {Z} \ mid \ mathbf {X}, \ mathbf {\ theta} ^ {(t)}} [\ log L (\ theta; \ mathbf {x}, \ mathbf {Z}) ] \\ = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, \ mathbf {\ theta} ^ {(t)}} [\ log \ prod _ {i = 1} ^ {n} L (\ theta; \ mathbf {x} _ {i}, Z_ {i})] \\ = \ operatorname {E} _ {\ mathbf {Z} \ mid \ mathbf {X}, \ mathbf {\ theta} ^ {(t)}} [\ sum _ {i = 1} ^ {n} \ log L (\ theta; \ mathbf {x} _ {i}, Z_ {i})] \\ = \ sum _ {i = 1} ^ {n} \ operatorname {E} _ {Z_ {i} \ mid \ mathbf {X}; \ mathbf {\ theta} ^ {(t)}} [\ log L ( \ theta; \ mathbf {x} _ {i}, Z_ {i})] \\ = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2} P (Z_ {i} = j \ mid X_ {i} = \ mathbf {x} _ {i}; \ theta ^ {(t)}) \ log L (\ theta _ {j}; \ mathbf {x} _ {i }, j) \\ = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {2} T_ {j, i} ^ {(t)} {\ big [} \ log \ tau _ {j} - {\ tfrac {1} {2}} \ log | \ Sigma _ {j} | - {\ tfrac {1} {2}} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) ^ {\ top} \ Sigma _ {j} ^ {- 1} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {j}) - {\ tfrac {d} {2}} \ log (2 \ pi) {\ big]}. \ end {выравнивается} }}

Ожидание из $log ⁡ L (θ; xi, Z i) {\ displaystyle \ log L (\ theta; \ mathbf {x} _ {i}, Z_ {i})}$ ${\ displaystyle \ log L (\ theta; \ mathbf {x} _ {i}, Z_ {i})}$ внутри сумма берется по отношению к функции плотности вероятности $п (Z я ∣ Икс я знак равно xi; θ (t)) {\ displaystyle P (Z_ {i} \ mid X_ {i} = \ mathbf {x} _ {i}; \ theta ^ {(t) })}$ ${\ displaystyle P (Z_ {i} \ mid X_ {i} = \ mathbf {x} _ {i}; \ theta ^ {(t)})}$ , которые могут быть разными для каждого $xi {\ displaystyle \ mathbf {x} _ {i}}$ $\ mathbf {x} _ {i}$ обучающего набора. Все, что есть на шаге E, известно до его выполнения, за исключением $T j, i {\ displaystyle T_ {j, i}}$ ${\ displaystyle T_ {j, я}}$ , которое вычисляется в соответствии с уравнением в начале E ступенчатый раздел.

Это полное условное ожидание не нужно рассчитывать за один шаг, потому что τ и μ/Σпоявляются в отдельных линейных членах и, таким образом, могут быть максимизированы независимо.

M step

Q (θ | θ), являющийся квадратичным по форме, означает, что определение максимальных значений θ относительно несложно. Кроме того, τ, (μ1,Σ1) и (μ2,Σ2) все могут быть максимизированы независимо, поскольку все они появляются в отдельных линейных членах.

Для начала рассмотрим τ, которое имеет ограничение τ 1 + τ 2 = 1:

τ (t + 1) = argmax τ Q ( θ ∣ θ (t)) = argmax τ {[∑ i = 1 n T 1, i (t)] log ⁡ τ 1 + [∑ i = 1 n T 2, i (t)] log ⁡ τ 2}. {\ displaystyle {\ begin {align} {\ boldsymbol {\ tau}} ^ {(t + 1)} = {\ underset {\ boldsymbol {\ tau}} {\ operatorname {arg \, max}}} \ Q (\ theta \ mid \ theta ^ {(t)}) \\ = {\ underset {\ boldsymbol {\ tau}} {\ operatorname {arg \, max}}} \ \ left \ {\ left [\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)} \ right] \ log \ tau _ {1} + \ left [\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)} \ right] \ log \ tau _ {2} \ right \}. \ End {align}}}

{\ displaystyle { \ begin {align} {\ boldsymbol {\ tau}} ^ {(t + 1)} = {\ underset {\ boldsymbol {\ tau}} {\ operatorname {arg \, max}}} \ Q (\ theta \ mid \ theta ^ {(t)}) \\ = {\ underset {\ boldsymbol {\ tau}} {\ operatorname {arg \, max}}} \ \ le ft \ {\ left [\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)} \ right] \ log \ tau _ {1} + \ left [\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)} \ right] \ log \ tau _ {2} \ right \}. \ End {align}}}

Он имеет ту же форму, что и MLE для биномиальное распределение, поэтому

τ j (t + 1) = ∑ i = 1 n T j, i (t) ∑ i = 1 n (T 1, i (t) + T 2, i ( т)) = 1 n ∑ i = 1 n T j, i ( t). {\displaystyle \tau _{j}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{j,i}^{(t)}}{\sum _{i=1}^{n}(T_{1,i}^{(t)}+T_{2,i}^{(t)})}}={\frac {1}{n}}\sum _{i=1}^{n}T_{j,i}^{(t)}.}

{\ displaystyle \ tau _ {j} ^ {(t + 1)} = {\ frac { \ sum _ {i = 1} ^ {n} T_ {j, i} ^ {(t)}} {\ sum _ {i = 1} ^ {n} (T_ {1, i} ^ {(t) } + T_ {2, i} ^ {(t)})}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} T_ {j, i} ^ {(t)}.}

For the next estimates of (μ1,Σ1):

( μ 1 ( t + 1), Σ 1 ( t + 1)) = a r g m a x μ 1, Σ 1 Q ( θ ∣ θ ( t)) = a r g m a x μ 1, Σ 1 ∑ i = 1 n T 1, i ( t) { − 1 2 log ⁡ | Σ 1 | − 1 2 ( x i − μ 1) ⊤ Σ 1 − 1 ( x i − μ 1) }. {\displaystyle {\begin{aligned}({\boldsymbol {\mu }}_{1}^{(t+1)},\Sigma _{1}^{(t+1)})={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}Q(\theta \mid \theta ^{(t)})\\={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}\sum _{i=1}^{n}T_{1,i}^{(t)}\left\{-{\tfrac {1}{2}}\log |\Sigma _{1}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})^{\top }\Sigma _{1}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})\right\}\end{aligned}}.}

{\ displaystyle {\ begin {align} ({\ boldsymbol {\ mu}} _ {1} ^ {(t + 1)}, \ Sigma _ {1} ^ {(t + 1)}) = {\ underset {{\ boldsymbol {\ mu}} _ {1}, \ Sigma _ {1}} {\ operatorname {arg \, max }}} Q (\ theta \ mid \ theta ^ {(t)}) \\ = {\ underset {{\ boldsymbol {\ mu}} _ {1}, \ Sigma _ {1}} {\ operatorname { arg \, max}}} \ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)} \ left \ {- {\ tfrac {1} {2}} \ log | \ Sigma _ {1} | - {\ tfrac {1} {2}} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {1}) ^ {\ top} \ Sigma _ { 1} ^ {- 1} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {1}) \ right \} \ end {align}}.}

This has the same form as a weighted MLE for a normal distribution, so

μ 1 ( t + 1) = ∑ i = 1 n T 1, i ( t) x i ∑ i = 1 n T 1, i ( t) {\displaystyle {\boldsymbol {\mu }}_{1}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{1,i}^{(t)}\m athbf {x} _ {i}} {\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)}}}}

\ boldsymbol {\ mu} _1 ^ {(t + 1)} = \ frac { \ sum_ {i = 1} ^ n T_ {1, i} ^ {(t)} \ mathbf {x} _i} {\ sum_ {i = 1 } ^ n T_ {1, i} ^ {(t)}}

Σ 1 ( t + 1) = ∑ i = 1 n T 1, i (t) (xi - μ 1 (t + 1)) (xi - μ 1 (t + 1)) ⊤ ∑ i = 1 n T 1, i ( t) {\ displaystyle \ Sigma _ {1} ^ {(t + 1)} = {\ frac {\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {1} ^ {(t + 1)}) (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {1} ^ {(t + 1)}) ^ {\ top}} {\ sum _ {i = 1} ^ {n} T_ {1, i} ^ {(t)}}}}

\ Sigma_1 ^ {(t + 1)} = \ frac {\ sum_ {i = 1} ^ n T_ {1, i} ^ {(t)} (\ mathbf {x} _i - \ boldsymbol {\ mu} _1 ^ {(t + 1)}) (\ mathbf {x} _i - \ boldsymbol {\ mu} _1 ^ {(t + 1)}) ^ \ top} {\ sum_ {i = 1} ^ n T_ {1, i} ^ {(t)}}

и, по симметрии

μ 2 (t + 1) = ∑ i = 1 n T 2, i (t) xi ∑ i = 1 n T 2, i (t) {\ displaystyle {\ boldsymbol {\ mu} } _ {2} ^ {(t + 1)} = {\ frac {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)} \ mathbf {x} _ {i }} {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)}}}}

\ жирный символ {\ mu} _2 ^ {(t + 1)} = \ frac {\ sum_ {i = 1} ^ n T_ {2, i} ^ {(t)} \ mathbf {x} _i} {\ sum_ { я = 1} ^ n T_ {2, i} ^ {(t)}}

Σ 2 (t + 1) = ∑ i = 1 n T 2, i (t) (xi - μ 2 (t + 1)) (xi - μ 2 (t + 1)) ⊤ ∑ i = 1 n T 2, i (t). {\ displaystyle \ Sigma _ {2} ^ {(t + 1)} = {\ frac {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)} (\ mathbf { x} _ {i} - {\ boldsymbol {\ mu}} _ {2} ^ {(t + 1)}) (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {2 } ^ {(t + 1)}) ^ {\ top}} {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)}}}.}

{\ displaystyle \ Sigma _ {2} ^ {(t + 1) } = {\ frac {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)} (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {2} ^ {(t + 1)}) (\ mathbf {x} _ {i} - {\ boldsymbol {\ mu}} _ {2} ^ {(t + 1)}) ^ {\ top}} {\ sum _ {i = 1} ^ {n} T_ {2, i} ^ {(t)}}}.}

Прекращение действия

Завершите итерационный процесс, если $EZ ∣ θ (t), x [log ⁡ L (θ (t); x, Z)] ≤ EZ ∣ θ (t - 1), x [log ⁡ L (θ (т - 1); Икс, Z)] + ε {\ Displaystyle E_ {Z \ mid \ theta ^ {(t)}, \ mathbf {x}} [\ log L (\ theta ^ {(т)}; \ mathbf {x}, \ mathbf {Z})] \ leq E_ {Z \ mid \ theta ^ {(t-1)}, \ mathbf {x}} [\ log L (\ theta ^ {( t-1)}; \ mathbf {x}, \ mathbf {Z})] + \ varepsilon}$ ${\ Displaystyle E_ {Z \ mid \ theta ^ {(t)}, \ mathbf {x}} [\ log L (\ theta ^ {(t)}; \ mathbf {x}, \ mathbf {Z })] \ leq E_ {Z \ mid \ theta ^ {(t-1)}, \ mathbf {x}} [\ log L (\ theta ^ {(t-1)}; \ mathbf {x}, \ mathbf {Z})] + \ varepsilon}$ для $ε {\ displaystyle \ varepsilon}$ $\ varepsilon$ ниже некоторого заданного порога.

Обобщение

Алгоритм, проиллюстрированный выше, может быть обобщен для смесей более двух многомерных нормальных распределений.

Усеченная и цензурированная регрессия

Алгоритм EM был реализована в случае, когда существует базовая модель линейной регрессии, объясняющая изменение некоторой величины, но где фактически наблюдаемые значения являются цензурированными или усеченными версиями тех, которые представлены в модели. Особые случаи этой модели включают цензурированные или усеченные наблюдения из одного нормального распределения.

Альтернативы

EM обычно сходится к локальному оптимуму, не обязательно к глобальному оптимуму, без ограничения скорости сходимости в целом. Возможно, что он может быть сколь угодно плохим в больших размерностях и может иметь экспоненциальное число локальных оптимумов. Следовательно, существует потребность в альтернативных методах гарантированного обучения, особенно в условиях большой размерности. Существуют альтернативы ЭМ с лучшими гарантиями согласованности, которые называются подходами на основе моментов или так называемыми спектральными методами. Моментные подходы к изучению параметров вероятностной модели в последнее время вызывают все больший интерес, поскольку они обладают такими гарантиями, как глобальная конвергенция при определенных условиях, в отличие от EM, который часто страдает проблемой застревания в локальных оптимумах. Алгоритмы с гарантиями обучения могут быть получены для ряда важных моделей, таких как модели смесей, ГММ и т. Д. Для этих спектральных методов не возникает ложных локальных оптимумов, и истинные параметры могут быть последовательно оценены при некоторых условиях регулярности.

См. Также

распределение смеси
распределение соединений
оценка плотности
спектроскопия общего поглощения
алгоритм ожидания – максимизации
Алгоритм EM можно рассматривать как частный случай алгоритм мажоризация-минимизация (MM).

Ссылки

Дополнительная литература

Hogg, Robert; Маккин, Джозеф; Крейг, Аллен (2005). Введение в математическую статистику. Река Аппер Сэдл, штат Нью-Джерси: Pearson Prentice Hall. стр. 359–364.
Деллаерт, Франк (2002). «Алгоритм максимизации ожидания». CiteSeerX 10.1.1.9.9735. Журнал цитирования требует | journal =() дает более простое объяснение алгоритма EM в отношении максимизации нижней границы.
Бишоп, Кристофер М. (2006). Распознавание образов и машинное обучение. Springer. ISBN 978-0-387-31073-2.
Gupta, M. R.; Чен, Ю. (2010). «Теория и использование алгоритма ЭМ». Основы и тенденции в обработке сигналов. 4 (3): 223–296. CiteSeerX 10.1.1.219.6830. doi : 10.1561 / 2000000034.Хорошо написанная короткая книга по ЭМ, включая подробный вывод ЭМ для GMM, HMM и Дирихле.
Bilmes, Jeff (1998). "Мягкое руководство по алгоритму EM и его применению для оценки параметров для гауссовской смеси и скрытых марковских моделей". CiteSeerX 10.1.1.28.613. Журнал цитирования требует | journal =() включает упрощенный вывод уравнений ЭМ для гауссовских смесей и скрытых марковских моделей гауссовских смесей.
McLachlan, Geoffrey J.; Кришнан, Триямбакам (2008). Алгоритм EM и расширения (2-е изд.). Хобокен: Вайли. ISBN 978-0-471-20170-0.

Внешние ссылки

Различные 1D, 2D и 3D демонстрации ЭМ вместе с Моделированием смеси предоставляются как часть парных действий и апплетов SOCR. Эти апплеты и действия эмпирически демонстрируют свойства алгоритма EM для оценки параметров в различных условиях.
k-MLE: быстрый алгоритм для изучения статистических моделей смеси
Иерархия классов в C ++ (GPL), включая гауссовские смеси
Он-лайн учебник: Теория информации, логический вывод и алгоритмы обучения, автор Дэвида Дж. К. Маккея, включает простые примеры алгоритма EM, такие как кластеризация с использованием программного алгоритм k-средних и подчеркивает вариационный взгляд на алгоритм EM, как описано в главе 33.7 версии 7.2 (четвертое издание).
Вариационные алгоритмы для приближенного байесовского вывода, автор MJ Beal, включает сравнения EM с вариационным Байесовский EM и производные нескольких моделей, включая вариационные байесовские HMM (главы ).
Алгоритм максимизации ожиданий: краткое руководство, автономный вывод алгоритма EM Шона Бормана.
Алгоритм EM, Сяоцзинь Чжу.
Алгоритм и варианты EM: неформальное руководство Алексис Рош. Краткое и очень ясное описание EM и множество интересных вариантов.