Оценка максимального правдоподобия

редактировать
Эта статья о статистических методах. Для хранения компьютерных данных см. Максимальную вероятность частичного ответа.

В статистике, оценка максимального правдоподобия ( MLE) представляет собой метод оценки по параметрам от предполагаемого распределения вероятностей, учитывая некоторые наблюдаемые данные. Это достигается за счет максимизации а функция правдоподобия, так что при предполагаемой статистической модели, то наблюдаемые данные, наиболее вероятно. Точки в пространстве параметров, который максимизирует функцию правдоподобия называются оценкой максимального правдоподобия. Логика максимального правдоподобия интуитивно понятна и гибка, и как таковой метод стал доминирующим средством статистического вывода.

Если функция правдоподобия дифференцируема, можно применить тест производной для определения максимумов. В некоторых случаях условия первого порядка функции правдоподобия могут быть решены явно; например, обычная оценка методом наименьших квадратов максимизирует вероятность модели линейной регрессии. Однако в большинстве случаев для нахождения максимума функции правдоподобия потребуются численные методы.

С точки зрения байесовского вывода, MLE является частным случаем максимальной апостериорной оценки (MAP), которая предполагает равномерное априорное распределение параметров. В частотном выводе MLE - это частный случай оценки экстремума, целевая функция которого - вероятность.

СОДЕРЖАНИЕ

  • 1 Принципы
    • 1.1 Ограниченное пространство параметров
  • 2 свойства
    • 2.1 Последовательность
    • 2.2 Функциональная инвариантность
    • 2.3 Эффективность
    • 2.4 Эффективность второго порядка после поправки на смещение
    • 2.5 Связь с байесовским выводом
      • 2.5.1 Применение оценки максимального правдоподобия в теории принятия решений Байеса
    • 2.6 Связь с минимизацией расхождения Кульбака – Лейблера и кросс-энтропии
  • 3 Примеры
    • 3.1 Дискретное равномерное распределение
    • 3.2 Дискретное распределение, пространство с конечными параметрами
    • 3.3 Дискретное распределение, непрерывное пространство параметров
    • 3.4 Непрерывное распределение, непрерывное пространство параметров
  • 4 Несамостоятельные переменные
    • 4.1 Пример
  • 5 Итерационные процедуры
    • 5.1 Метод градиентного спуска
    • 5.2 Метод Ньютона – Рафсона
    • 5.3 Квазиньютоновские методы
      • 5.3.1 Формула Дэвидона – Флетчера – Пауэлла
      • 5.3.2 Алгоритм Бройдена – Флетчера – Гольдфарба – Шенно
      • 5.3.3 Оценка Фишера
  • 6 История
  • 7 См. Также
    • 7.1 Понятия, связанные с данным
    • 7.2 Другие методы оценки
  • 8 ссылки
  • 9 Дальнейшее чтение
  • 10 Внешние ссылки

Принципы

Со статистической точки зрения данный набор наблюдений представляет собой случайную выборку из неизвестной совокупности. Цель оценки максимального правдоподобия состоит в том, чтобы сделать выводы о совокупности, которая с наибольшей вероятностью сгенерировала выборку, в частности, о совместном распределении вероятностей случайных величин, не обязательно независимых и одинаково распределенных. С каждым распределением вероятностей связан уникальный вектор параметров, который индексирует распределение вероятностей в параметрическом семействе, которое называется пространством параметров, конечномерным подмножеством евклидова пространства. Оценка совместной плотности в наблюдаемой выборке данных дает действительную функцию, { у 1 , у 2 , } {\ displaystyle \ left \ {y_ {1}, y_ {2}, \ ldots \ right \}} θ знак равно [ θ 1 , θ 2 , , θ k ] Т {\ displaystyle \ theta = \ left [\ theta _ {1}, \, \ theta _ {2}, \, \ ldots, \, \ theta _ {k} \ right] ^ {\ mathsf {T}}} { ж ( ; θ ) θ Θ } {\ Displaystyle \ {е (\ cdot \,; \ theta) \ mid \ theta \ in \ Theta \}} Θ {\ Displaystyle \ Theta} у знак равно ( у 1 , у 2 , , у п ) {\ Displaystyle \ mathbf {y} = (y_ {1}, y_ {2}, \ ldots, y_ {n})}

L п ( θ ) знак равно L п ( θ ; у ) знак равно ж п ( у ; θ ) {\ displaystyle L_ {n} (\ theta) = L_ {n} (\ theta; \ mathbf {y}) = f_ {n} (\ mathbf {y}; \ theta)}

которая называется функцией правдоподобия. Для независимых и одинаково распределенных случайных величин, будет произведение одномерных функций плотности. ж п ( у ; θ ) {\ displaystyle f_ {n} (\ mathbf {y}; \ theta)}

Цель оценки максимального правдоподобия - найти значения параметров модели, которые максимизируют функцию правдоподобия по пространству параметров, то есть

θ ^ знак равно а р грамм м а Икс θ Θ L ^ п ( θ ; у ) {\ displaystyle {\ hat {\ theta}} = {\ underset {\ theta \ in \ Theta} {\ operatorname {arg \; max}}} \, {\ widehat {L}} _ {n} (\ theta \,; \ mathbf {y})}

Интуитивно это выбирает значения параметров, которые делают наблюдаемые данные наиболее вероятными. Конкретное значение, которое максимизирует функцию правдоподобия, называется оценкой максимального правдоподобия. Кроме того, если определенная таким образом функция является измеримой, то она называется оценщиком максимального правдоподобия. Обычно это функция, определенная в пространстве выборки, т. Е. Принимающая данную выборку в качестве аргумента. Достаточное, но не необходимое условие его существование для функции правдоподобия быть непрерывной по параметру пространства, которое компактно. Для открытого типа функция правдоподобия может увеличиваться, даже не достигнув супремум-значения. θ ^ знак равно θ ^ п ( у ) Θ {\ displaystyle {\ hat {\ theta}} = {\ hat {\ theta}} _ {n} (\ mathbf {y}) \ in \ Theta} L п {\ displaystyle L_ {n}} θ ^ п : р п Θ {\ displaystyle {\ hat {\ theta}} _ {n}: \ mathbb {R} ^ {n} \ to \ Theta} Θ {\ Displaystyle \ Theta} Θ {\ Displaystyle \ Theta}

На практике часто бывает удобно работать с натуральным логарифмом функции правдоподобия, называемым логарифмом правдоподобия :

( θ ; у ) знак равно пер L п ( θ ; у ) . {\ displaystyle \ ell (\ theta \,; \ mathbf {y}) = \ ln L_ {n} (\ theta \,; \ mathbf {y}).}

Поскольку логарифм является монотонной функцией, максимум происходит при том же значении, что и максимум. Если это дифференцируемый в, то необходимые условия для возникновения максимума (или минимума) являются ( θ ; у ) {\ displaystyle \ ell (\ theta \,; \ mathbf {y})} θ {\ displaystyle \ theta} L п {\ displaystyle L_ {n}} ( θ ; у ) {\ displaystyle \ ell (\ theta \,; \ mathbf {y})} θ {\ displaystyle \ theta}

θ 1 знак равно 0 , θ 2 знак равно 0 , , θ k знак равно 0 , {\ displaystyle {\ frac {\ partial \ ell} {\ partial \ theta _ {1}}} = 0, \ quad {\ frac {\ partial \ ell} {\ partial \ theta _ {2}}} = 0, \ quad \ ldots, \ quad {\ frac {\ partial \ ell} {\ partial \ theta _ {k}}} = 0,}

известные как уравнения правдоподобия. Для некоторых моделей эти уравнения могут быть решены в явном виде, но в целом решение задачи максимизации в замкнутой форме неизвестно или доступно, а MLE можно найти только с помощью численной оптимизации. Другая проблема заключается в том, что в конечных выборках может существовать несколько корней для уравнений правдоподобия. Является ли идентифицированный корень уравнений правдоподобия (локальным) максимумом, зависит от того, является ли матрица частных и кросс-частных производных второго порядка, так называемая матрица Гессе θ ^ {\ displaystyle {\ widehat {\ theta \,}}} θ ^ {\ displaystyle {\ widehat {\ theta \,}}}

ЧАС ( θ ^ ) знак равно [ 2 θ 1 2 | θ знак равно θ ^ 2 θ 1 θ 2 | θ знак равно θ ^ 2 θ 1 θ k | θ знак равно θ ^ 2 θ 2 θ 1 | θ знак равно θ ^ 2 θ 2 2 | θ знак равно θ ^ 2 θ 2 θ k | θ знак равно θ ^ 2 θ k θ 1 | θ знак равно θ ^ 2 θ k θ 2 | θ знак равно θ ^ 2 θ k 2 | θ знак равно θ ^ ] , {\ Displaystyle \ mathbf {H} \ left ({\ widehat {\ theta \,}} \ right) = {\ begin {bmatrix} \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {1} ^ {2}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} amp; \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {1} \, \ partial \ theta _ {2}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} amp; \ dots amp; \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {1} \, \ partial \ theta _ {k}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} \\ \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {2} \, \ partial \ theta _ {1}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} amp; \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {2} ^ {2}}} \ right | _ {\ theta = {\ widehat { \ theta \,}}} amp; \ dots amp; \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {2} \, \ partial \ theta _ {k}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} \\\ vdots amp; \ vdots amp; \ ddots amp; \ vdots \\\ left. {\ frac {\ partial ^ {2} \ ell} {\ частичный \ theta _ {k} \, \ partial \ theta _ {1}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} amp; \ left. {\ frac {\ partial ^ { 2} \ ell} {\ partial \ theta _ {k} \, \ partial \ theta _ {2 }}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} amp; \ dots amp; \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {k } ^ {2}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} \ end {bmatrix}},}

является отрицательным полуопределенным при, поскольку это указывает на локальную вогнутость. Удобно, что наиболее распространенные распределения вероятностей - в частности, экспоненциальное семейство - логарифмически вогнуты. θ ^ {\ displaystyle {\ widehat {\ theta \,}}}

Ограниченное пространство параметров

Не путать с ограниченной максимальной вероятностью.

Хотя область определения функции правдоподобия - пространство параметров - обычно является конечномерным подмножеством евклидова пространства, иногда в процесс оценки необходимо включать дополнительные ограничения. Пространство параметров может быть выражено как

Θ знак равно { θ : θ р k , час ( θ ) знак равно 0 } {\ Displaystyle \ Theta = \ left \ {\ theta: \ theta \ in \ mathbb {R} ^ {k}, \; h (\ theta) = 0 \ right \}},

где - вектор-функция, отображаемая в. Оценка истинного параметра, принадлежащего тогда, на практике означает найти максимум функции правдоподобия с учетом ограничения. час ( θ ) знак равно [ час 1 ( θ ) , час 2 ( θ ) , , час р ( θ ) ] {\ displaystyle h (\ theta) = \ left [h_ {1} (\ theta), h_ {2} (\ theta), \ ldots, h_ {r} (\ theta) \ right]} р k {\ Displaystyle \ mathbb {R} ^ {k}} р р {\ Displaystyle \ mathbb {R} ^ {r}} θ {\ displaystyle \ theta} Θ {\ Displaystyle \ Theta} час ( θ ) знак равно 0 {\ Displaystyle ч (\ тета) = 0}

Теоретически наиболее естественным подходом к этой задаче оптимизации с ограничениями является метод подстановки, то есть «заполнение» ограничений для набора таким образом, что оно является взаимно однозначной функцией от самого себя, и повторная параметризация функции правдоподобия установив. Из-за инвариантности оценки максимального правдоподобия свойства MLE также применимы к ограниченным оценкам. Например, в многомерном нормальном распределении ковариационная матрица должна быть положительно определена ; это ограничение можно наложить заменой, где - вещественная верхнетреугольная матрица, а - ее транспонирование. час 1 , час 2 , , час р {\ displaystyle h_ {1}, h_ {2}, \ ldots, h_ {r}} час 1 , час 2 , , час р , час р + 1 , , час k {\ displaystyle h_ {1}, h_ {2}, \ ldots, h_ {r}, h_ {r + 1}, \ ldots, h_ {k}} час * знак равно [ час 1 , час 2 , , час k ] {\ displaystyle h ^ {\ ast} = \ left [h_ {1}, h_ {2}, \ ldots, h_ {k} \ right]} р k {\ Displaystyle \ mathbb {R} ^ {k}} ϕ я знак равно час я ( θ 1 , θ 2 , , θ k ) {\ displaystyle \ phi _ {i} = h_ {i} (\ theta _ {1}, \ theta _ {2}, \ ldots, \ theta _ {k})} Σ {\ displaystyle \ Sigma} Σ знак равно Γ Т Γ {\ Displaystyle \ Sigma = \ Gamma ^ {\ mathsf {T}} \ Gamma} Γ {\ displaystyle \ Gamma} Γ Т {\ Displaystyle \ Gamma ^ {\ mathsf {T}}}

На практике ограничения обычно накладываются с использованием метода Лагранжа, который с учетом ограничений, определенных выше, приводит к уравнениям ограниченного правдоподобия

θ - час ( θ ) Т θ λ знак равно 0 {\ displaystyle {\ frac {\ partial \ ell} {\ partial \ theta}} - {\ frac {\ partial h (\ theta) ^ {\ mathsf {T}}} {\ partial \ theta}} \ lambda = 0}и, час ( θ ) знак равно 0 {\ Displaystyle ч (\ тета) = 0}

где - вектор-столбец множителей Лагранжа, а - матрица Якоби k × r частных производных. Естественно, если ограничения не являются обязательными на максимум, множители Лагранжа должны быть равны нулю. Это, в свою очередь, позволяет проводить статистический тест «достоверности» ограничения, известный как тест множителя Лагранжа. λ знак равно [ λ 1 , λ 2 , , λ р ] Т {\ displaystyle \ lambda = \ left [\ lambda _ {1}, \ lambda _ {2}, \ ldots, \ lambda _ {r} \ right] ^ {\ mathsf {T}}} час ( θ ) Т θ {\ displaystyle {\ frac {\ partial h (\ theta) ^ {\ mathsf {T}}} {\ partial \ theta}}}

Характеристики

Блок оценка максимального правдоподобия является экстремум оценки, полученной путем максимизации, в зависимости от amp; thetas, в целевой функции. Если данные независимы и одинаково распределены, то мы имеем ^ ( θ ; Икс ) {\ Displaystyle {\ widehat {\ ell \,}} (\ theta \,; х)}

^ ( θ ; Икс ) знак равно 1 п я знак равно 1 п пер ж ( Икс я θ ) , {\ displaystyle {\ widehat {\ ell \,}} (\ theta \,; x) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ ln f (x_ { i} \ mid \ theta),}

это примерный аналог ожидаемой логарифмической вероятности, где это ожидание берется относительно истинной плотности. ( θ ) знак равно E [ пер ж ( Икс я θ ) ] {\ Displaystyle \ ell (\ theta) = \ OperatorName {\ mathbb {E}} [\, \ ln f (x_ {i} \ mid \ theta) \,]}

Оценщики максимального правдоподобия не имеют оптимальных свойств для конечных выборок в том смысле, что (при оценке на конечных выборках) другие оценщики могут иметь большую концентрацию вокруг истинного значения параметра. Однако, как и другие методы оценки, оценка максимального правдоподобия обладает рядом привлекательных ограничивающих свойств : при увеличении размера выборки до бесконечности последовательности оценок максимального правдоподобия обладают следующими свойствами:

  • Согласованность : последовательность MLE сходится по вероятности к оцениваемому значению.
  • Функциональная инвариантность: Если максимальная оценка правдоподобия, и если это любое преобразование, то оценка максимального правдоподобия является. θ ^ {\ displaystyle {\ hat {\ theta}}} θ {\ displaystyle \ theta} грамм ( θ ) {\ Displaystyle г (\ тета)} θ {\ displaystyle \ theta} α знак равно грамм ( θ ) {\ Displaystyle \ альфа = г (\ тета)} α ^ знак равно грамм ( θ ^ ) {\ Displaystyle {\ шляпа {\ альфа}} = г ({\ шляпа {\ theta}})}
  • Эффективность, т. Е. Достигается нижняя граница Крамера – Рао, когда размер выборки стремится к бесконечности. Это означает, что ни одна последовательная оценка не имеет более низкой асимптотической среднеквадратической ошибки, чем MLE (или другие оценки, достигающие этой границы), что также означает, что MLE имеет асимптотическую нормальность.
  • Эффективность второго порядка после коррекции смещения.

Последовательность

В условиях, описанных ниже, оценка максимального правдоподобия согласована. Согласованность означает, что если данные были сгенерированы и у нас есть достаточно большое количество наблюдений n, то можно найти значение θ 0 с произвольной точностью. С математической точки зрения это означает, что, когда n стремится к бесконечности, оценщик сходится по вероятности к своему истинному значению: ж ( ; θ 0 ) {\ Displaystyle е (\ cdot \,; \ theta _ {0})} θ ^ {\ displaystyle {\ widehat {\ theta \,}}}

θ ^ м л е   п   θ 0 . {\ displaystyle {\ widehat {\ theta \,}} _ {\ mathrm {mle}} \ {\ xrightarrow {\ text {p}}} \ \ theta _ {0}.}

При немного более сильных условиях оценка почти наверняка (или сильно) сходится:

θ ^ м л е   в качестве   θ 0 . {\ displaystyle {\ widehat {\ theta \,}} _ {\ mathrm {mle}} \ {\ xrightarrow {\ text {as}}} \ \ theta _ {0}.}

В практических приложениях данные никогда не генерируются. Скорее, это модель, часто в идеализированной форме, процесса, порождаемого данными. В статистике распространен афоризм о том, что все модели ошибочны. Таким образом, в практических приложениях истинной согласованности не происходит. Тем не менее, согласованность часто считается желательным свойством для оценщика. ж ( ; θ 0 ) {\ Displaystyle е (\ cdot \,; \ theta _ {0})} ж ( ; θ 0 ) {\ Displaystyle е (\ cdot \,; \ theta _ {0})}

Для установления согласованности достаточно следующих условий.

  1. Идентификация модели:
    θ θ 0 ж ( θ ) ж ( θ 0 ) . {\ displaystyle \ theta \ neq \ theta _ {0} \ quad \ Leftrightarrow \ quad f (\ cdot \ mid \ theta) \ neq f (\ cdot \ mid \ theta _ {0}).}

    Другими словами, разные значения параметра θ соответствуют разным распределениям в модели. Если бы это условие не выполнялось, было бы некоторое значение θ 1, такое, что θ 0 и θ 1 генерировали идентичное распределение наблюдаемых данных. Тогда мы не сможем различить эти два параметра даже при бесконечном количестве данных - эти параметры были бы эквивалентны с точки зрения наблюдений.

    Условие идентификации абсолютно необходимо для согласованности оценки ML. Когда это условие выполняется, предельная функция правдоподобия ℓ ( θ |) имеет единственный глобальный максимум при θ 0.
  2. Компактность: пространство параметров модели Θ компактно. Ee noncompactness.svg

    Условие идентификации устанавливает, что логарифм правдоподобия имеет уникальный глобальный максимум. Компактность означает, что вероятность не может приблизиться к максимальному значению произвольно близко в какой-то другой точке (как показано, например, на рисунке справа).

    Компактность - это только достаточное, но не необходимое условие. Компактность можно заменить некоторыми другими условиями, например:

    • как вогнутость логарифмической функции правдоподобия, так и компактность некоторых (непустых) множеств верхнего уровня логарифмической функции правдоподобия, или
    • Существование компактной окрестности N от amp; thetas ; 0, что вне N функция правдоподобия журнала меньше, чем максимум, по крайней мере, некоторого е gt; 0.
  3. Непрерывность: функция ln f ( x  |  θ) непрерывна по θ почти для всех значений x:
    п [ пер ж ( Икс θ ) C 0 ( Θ ) ] знак равно 1. {\ Displaystyle \ OperatorName {\ mathbb {P}} {\ Bigl [} \; \ ln f (x \ mid \ theta) \; \ in \; C ^ {0} (\ Theta) \; {\ Bigr] } = 1.}
    Непрерывность здесь можно заменить несколько более слабым условием полунепрерывности сверху.
  4. Доминирование: существует D ( x), интегрируемая по распределению f ( x  |  θ 0) такая, что
    | пер ж ( Икс θ ) | lt; D ( Икс )  для всех  θ Θ . {\ displaystyle {\ Bigl |} \ ln f (x \ mid \ theta) {\ Bigr |} lt;D (x) \ quad {\ text {для всех}} \ theta \ in \ Theta.}
    По единому закону больших чисел условие доминирования вместе с непрерывностью устанавливает равномерную сходимость по вероятности логарифмического правдоподобия:
    Как дела θ Θ | ^ ( θ Икс ) - ( θ ) |   п   0. {\ Displaystyle \ sup _ {\ theta \ in \ Theta} \ left | {\ widehat {\ ell \,}} (\ theta \ mid x) - \ ell (\ theta) \, \ right | \ {\ xrightarrow {\ text {p}}} \ 0.}

Условие доминирования можно использовать в случае iid- наблюдений. В не н.о.р. случае, равномерная сходимость по вероятности можно проверить, показав, что последовательность является стохастически эквинепрерывно. Если кто-то хочет продемонстрировать, что оценка ML почти наверняка сходится к θ 0, то почти наверняка должно быть наложено более сильное условие равномерной сходимости: ^ ( θ Икс ) {\ displaystyle {\ widehat {\ ell \,}} (\ theta \ mid x)} θ ^ {\ displaystyle {\ widehat {\ theta \,}}}

Как дела θ Θ ^ ( θ Икс ) - ( θ )   в качестве   0. {\ displaystyle \ sup _ {\ theta \ in \ Theta} \ left \ | \; {\ widehat {\ ell \,}} (\ theta \ mid x) - \ ell (\ theta) \; \ right \ | \ \ xrightarrow {\ text {as}} \ 0.}

Кроме того, если (как предполагалось выше) данные были сгенерированы, то при определенных условиях также может быть показано, что оценщик максимального правдоподобия сходится по распределению к нормальному распределению. Конкретно, ж ( ; θ 0 ) {\ Displaystyle е (\ cdot \,; \ theta _ {0})}

п ( θ ^ м л е - θ 0 )   d   N ( 0 , я - 1 ) {\ displaystyle {\ sqrt {n}} \ left ({\ widehat {\ theta \,}} _ {\ mathrm {mle}} - \ theta _ {0} \ right) \ \ xrightarrow {d} \ {\ mathcal {N}} \ left (0, \, I ^ {- 1} \ right)}

где I - информационная матрица Фишера.

Функциональная инвариантность

Оценщик максимального правдоподобия выбирает значение параметра, которое дает наблюдаемым данным наибольшую возможную вероятность (или плотность вероятности в непрерывном случае). Если параметр состоит из нескольких компонентов, то мы определяем их отдельные оценки максимального правдоподобия как соответствующий компонент MLE полного параметра. В соответствии с этим, если это MLE для, и если есть какое-либо преобразование, то MLE для по определению θ ^ {\ displaystyle {\ widehat {\ theta \,}}} θ {\ displaystyle \ theta} грамм ( θ ) {\ Displaystyle г (\ тета)} θ {\ displaystyle \ theta} α знак равно грамм ( θ ) {\ Displaystyle \ альфа = г (\ тета)}

α ^ знак равно грамм ( θ ^ ) . {\ displaystyle {\ widehat {\ alpha}} = g (\, {\ widehat {\ theta \,}} \,). \,}

Это максимизирует так называемую вероятность профиля :

L ¯ ( α ) знак равно Как дела θ : α знак равно грамм ( θ ) L ( θ ) . {\ displaystyle {\ bar {L}} (\ alpha) = \ sup _ {\ theta: \ alpha = g (\ theta)} L (\ theta). \,}

MLE также инвариантен по отношению к некоторым преобразованиям данных. Если где равно один к одному и не зависит от оцениваемых параметров, то функции плотности удовлетворяют у знак равно грамм ( Икс ) {\ Displaystyle у = г (х)} грамм {\ displaystyle g}

ж Y ( у ) знак равно ж Икс ( Икс ) | грамм ( Икс ) | {\ Displaystyle f_ {Y} (y) = {\ frac {f_ {X} (x)} {| g '(x) |}}}

и, следовательно, функции правдоподобия для и отличаются только фактором, не зависящим от параметров модели. Икс {\ displaystyle X} Y {\ displaystyle Y}

Например, параметры MLE логарифмически нормального распределения такие же, как параметры нормального распределения, подогнанного к логарифму данных.

Эффективность

Как предполагалось выше, если данные были сгенерированы к тому времени при определенных условиях, можно также показать, что оценщик максимального правдоподобия сходится по распределению к нормальному распределению. Он √ n -согласован и асимптотически эффективен, что означает, что он достигает границы Крамера – Рао. Конкретно,   ж ( ; θ 0 )   , {\ Displaystyle ~ е (\ cdot \,; \ theta _ {0}) ~,}  

п ( θ ^ mle - θ 0 )     d     N ( 0 ,   я - 1 )   , {\ displaystyle {\ sqrt {n \,}} \, \ left ({\ widehat {\ theta \,}} _ {\ text {mle}} - \ theta _ {0} \ right) \ \ \ xrightarrow { d} \ \ {\ mathcal {N}} \ left (0, \ {\ mathcal {I}} ^ {- 1} \ right) ~,}

где - информационная матрица Фишера :   я   {\ Displaystyle ~ {\ mathcal {I}} ~}

я j k знак равно E [ - 2 пер ж θ 0 ( Икс т ) θ j θ k ]   . {\ displaystyle {\ mathcal {I}} _ {jk} = \ operatorname {\ mathbb {E}} \, {\ biggl [} \; - {\ frac {\ partial ^ {2} \ ln f _ {\ theta _ {0}} (X_ {t})} {\ partial \ theta _ {j} \, \ partial \ theta _ {k}}} \; {\ biggr]} ~.}

В частности, это означает, что смещение оценщика максимального правдоподобия равно нулю с точностью до порядка1/√ п .

Эффективность второго порядка после коррекции смещения

Однако, когда мы рассматриваем члены более высокого порядка в разложении распределения этой оценки, оказывается, что θ mle имеет смещение порядка 1 / n. Это смещение равно (покомпонентно)

б час E [ ( θ ^ м л е - θ 0 ) час ] знак равно 1 п я , j , k знак равно 1 м я час я я j k ( 1 2 K я j k + J j , я k ) {\ displaystyle b_ {h} \; \ Equiv \; \ operatorname {\ mathbb {E}} {\ biggl [} \; \ left ({\ widehat {\ theta}} _ {\ mathrm {mle}} - \ theta _ {0} \ right) _ {h} \; {\ biggr]} \; = \; {\ frac {1} {\, n \,}} \, \ sum _ {i, j, k = 1} ^ {m} \; {\ mathcal {I}} ^ {hi} \; {\ mathcal {I}} ^ {jk} \ left ({\ frac {1} {\, 2 \,}} \, K_ {ijk} \; + \; J_ {j, ik} \ right)}

где (с надстрочными индексами) обозначает ( j, k) -й компонент обратной информационной матрицы Фишера, а я j k {\ displaystyle {\ mathcal {I}} ^ {jk}} я - 1 {\ displaystyle {\ mathcal {I}} ^ {- 1}}

1 2 K я j k + J j , я k знак равно E [ 1 2 3 пер ж θ 0 ( Икс т ) θ я θ j θ k + пер ж θ 0 ( Икс т ) θ j 2 пер ж θ 0 ( Икс т ) θ я θ k ]   . {\ displaystyle {\ frac {1} {\, 2 \,}} \, K_ {ijk} \; + \; J_ {j, ik} \; = \; \ operatorname {\ mathbb {E}} \, {\ biggl [} \; {\ frac {1} {2}} {\ frac {\ partial ^ {3} \ ln f _ {\ theta _ {0}} (X_ {t})} {\ partial \ theta _ {i} \; \ partial \ theta _ {j} \; \ partial \ theta _ {k}}} + {\ frac {\; \ partial \ ln f _ {\ theta _ {0}} (X_ {t }) \;} {\ partial \ theta _ {j}}} \, {\ frac {\; \ partial ^ {2} \ ln f _ {\ theta _ {0}} (X_ {t}) \;} {\ partial \ theta _ {i} \, \ partial \ theta _ {k}}} \; {\ biggr]} ~.}

Используя эти формулы, можно оценить смещение второго порядка оценки максимального правдоподобия и скорректировать это смещение путем его вычитания:

θ ^ mle * знак равно θ ^ mle - б ^   . {\ displaystyle {\ widehat {\ theta \,}} _ {\ text {mle}} ^ {*} = {\ widehat {\ theta \,}} _ {\ text {mle}} - {\ widehat {b \,}} ~.}

Этот оценщик объективен с точки зрения условий заказа. 1/ п , и называется оценщиком максимального правдоподобия с поправкой на смещение.

Эта скорректированная на смещение оценщика эффективна второго порядка (по крайней мере, в пределах изогнутого экспоненциального семейства), что означает, что она имеет минимальную среднеквадратичную ошибку среди всех оценщиков с поправкой на смещение второго порядка, вплоть до членов порядка1/ п 2  . Можно продолжить этот процесс, то есть получить член коррекции смещения третьего порядка и так далее. Однако оценщик максимального правдоподобия не эффективен для третьего порядка.

Связь с байесовским выводом

Оценщик максимального правдоподобия совпадает с наиболее вероятным байесовским оценщиком при условии равномерного априорного распределения по параметрам. В самом деле, максимальная апостериорная оценка - это параметр θ, который максимизирует вероятность θ с учетом данных, заданных теоремой Байеса:

п ( θ Икс 1 , Икс 2 , , Икс п ) знак равно ж ( Икс 1 , Икс 2 , , Икс п θ ) п ( θ ) п ( Икс 1 , Икс 2 , , Икс п ) {\ displaystyle \ operatorname {\ mathbb {P}} (\ theta \ mid x_ {1}, x_ {2}, \ ldots, x_ {n}) = {\ frac {f (x_ {1}, x_ {2) }, \ ldots, x_ {n} \ mid \ theta) \ operatorname {\ mathbb {P}} (\ theta)} {\ operatorname {\ mathbb {P}} (x_ {1}, x_ {2}, \ ldots, x_ {n})}}}

где - априорное распределение для параметра θ, а где - вероятность усреднения данных по всем параметрам. Поскольку знаменатель не зависит от θ, байесовская оценка получается максимизацией по θ. Если мы дополнительно предположим, что априорное распределение является равномерным, байесовская оценка получается путем максимизации функции правдоподобия. Таким образом, байесовская оценка совпадает с оценкой максимального правдоподобия для равномерного априорного распределения. п ( θ ) {\ Displaystyle \ OperatorName {\ mathbb {P}} (\ theta)} п ( Икс 1 , Икс 2 , , Икс п ) {\ Displaystyle \ OperatorName {\ mathbb {P}} (x_ {1}, x_ {2}, \ ldots, x_ {n})} ж ( Икс 1 , Икс 2 , , Икс п θ ) п ( θ ) {\ displaystyle f (x_ {1}, x_ {2}, \ ldots, x_ {n} \ mid \ theta) \ operatorname {\ mathbb {P}} (\ theta)} п ( θ ) {\ Displaystyle \ OperatorName {\ mathbb {P}} (\ theta)} ж ( Икс 1 , Икс 2 , , Икс п θ ) {\ Displaystyle f (x_ {1}, x_ {2}, \ ldots, x_ {n} \ mid \ theta)} п ( θ ) {\ Displaystyle \ OperatorName {\ mathbb {P}} (\ theta)}

Применение оценки максимального правдоподобия в теории принятия решений Байеса

Во многих практических приложениях машинного обучения оценка максимального правдоподобия используется в качестве модели для оценки параметров.

Теория байесовских решений заключается в разработке классификатора, который минимизирует общий ожидаемый риск, особенно, когда затраты (функция потерь), связанные с различными решениями, равны, классификатор минимизирует ошибку по всему распределению.

Таким образом, правило принятия решений Байеса формулируется как

"решите, если решите иначе " ш 1 {\ Displaystyle \; ш_ {1} \;}   п ( ш 1 | Икс ) gt; п ( ш 2 | Икс )   ;   {\ Displaystyle ~ \ OperatorName {\ mathbb {P}} (w_ {1} | x) \;gt; \; \ operatorname {\ mathbb {P}} (w_ {2} | x) ~; ~} ш 2 {\ Displaystyle \; ш_ {2} \;}

где предсказания разных классов. С точки зрения минимизации ошибки это также можно сформулировать как ш 1 , ш 2 {\ Displaystyle \; w_ {1} \,, w_ {2} \;}

ш знак равно а р грамм м а Икс ш - п (  ошибка Икс ) п ( Икс ) d Икс   {\ displaystyle w = {\ underset {w} {\ operatorname {arg \; max}}} \; \ int _ {- \ infty} ^ {\ infty} \ operatorname {\ mathbb {P}} ({\ text {error}} \ mid x) \ operatorname {\ mathbb {P}} (x) \, \ operatorname {d} x ~}

куда

п (  ошибка Икс ) знак равно п ( ш 1 Икс )   {\ displaystyle \ operatorname {\ mathbb {P}} ({\ text {error}} \ mid x) = \ operatorname {\ mathbb {P}} (w_ {1} \ mid x) ~}

если мы решим и если мы решим ш 2 {\ Displaystyle \; ш_ {2} \;} п (  ошибка Икс ) знак равно п ( ш 2 | Икс ) {\ displaystyle \; \ operatorname {\ mathbb {P}} ({\ text {error}} \ mid x) = \ operatorname {\ mathbb {P}} (w_ {2} | x) \;} ш 1 . {\ displaystyle \; w_ {1} \ ;.}

Применяя теорему Байеса

п ( ш я Икс ) знак равно п ( Икс ш я ) п ( ш я ) п ( Икс ) {\ displaystyle \ operatorname {\ mathbb {P}} (w_ {i} \ mid x) = {\ frac {\ operatorname {\ mathbb {P}} (x \ mid w_ {i}) \ operatorname {\ mathbb { P}} (w_ {i})} {\ operatorname {\ mathbb {P}} (x)}}},

и если мы дополнительно предположим функцию потерь ноль или один, которая является одинаковой потерей для всех ошибок, правило принятия решения Байеса можно переформулировать следующим образом:

час Байесовский знак равно а р грамм м а Икс ш [ п ( Икс ш ) п ( ш ) ] , {\ displaystyle h _ {\ text {Bayes}} = {\ underset {w} {\ operatorname {arg \; max}}} \, {\ bigl [} \, \ operatorname {\ mathbb {P}} (x \ середина ш) \, \ OperatorName {\ mathbb {P}} (ш) \, {\ bigr]} \ ;,}

где - прогноз, а - априорная вероятность. час Байесовский {\ displaystyle h _ {\ text {Байесовский}}} п ( ш ) {\ Displaystyle \; \ OperatorName {\ mathbb {P}} (ш) \;}

Связь с минимизацией расходимости Кульбака – Лейблера и кросс-энтропии

Нахождение, которое максимизирует вероятность, асимптотически эквивалентно нахождению, которое определяет распределение вероятностей (), которое имеет минимальное расстояние, в терминах расхождения Кульбака – Лейблера, до реального распределения вероятностей, из которого были сгенерированы наши данные (т. Е. Сгенерированы). В идеальном мире P и Q одинаковы (и единственное, что неизвестно, это то, что определяет P), но даже если это не так и модель, которую мы используем, неверно указана, MLE все равно даст нам "ближайшее" распределение (в пределах ограничение модели Q, зависящей от), на реальное распределение. θ ^ {\ displaystyle {\ hat {\ theta}}} θ ^ {\ displaystyle {\ hat {\ theta}}} Q θ ^ {\ displaystyle Q _ {\ hat {\ theta}}} п θ 0 {\ displaystyle P _ {\ theta _ {0}}} θ {\ displaystyle \ theta} θ ^ {\ displaystyle {\ hat {\ theta}}} п θ 0 {\ displaystyle P _ {\ theta _ {0}}}

Поскольку кросс-энтропия - это просто энтропия Шеннона плюс расхождение KL, и поскольку энтропия постоянна, то MLE также асимптотически минимизирует кросс-энтропию. п θ 0 {\ displaystyle P _ {\ theta _ {0}}}

Примеры

Дискретное равномерное распределение

Основная статья: Проблема немецких танков

Рассмотрим случай, когда n билетов с номерами от 1 до n помещены в коробку и один выбран случайным образом ( см. Равномерное распределение ); Таким образом, размер выборки равен 1. Если п неизвестна, то оценке максимального правдоподобия по п есть число м на нарисованном билете. (Вероятность равна 0 для n  lt;  m, 1 ⁄ n для n  ≥  m, и она максимальна, когда n  =  m. Обратите внимание, что оценка максимального правдоподобия n происходит на нижнем пределе возможных значений { m,  m  + 1,...}, а не где-то в "середине" диапазона возможных значений, что привело бы к меньшему смещению.) Ожидаемое значение числа m на выписанном билете и, следовательно, ожидаемое значение, равно ( n  + 1) / 2. В результате при размере выборки 1 оценка максимального правдоподобия для n будет систематически занижать n на ( n  - 1) / 2. п ^ {\ displaystyle {\ widehat {n}}} п ^ {\ displaystyle {\ widehat {n}}}

Дискретное распределение, пространство с конечными параметрами

Предположим, кто-то хочет определить, насколько пристрастна несправедливая монета. Назовем вероятность подбрасывания « головы » р. Затем цель состоит в том, чтобы определить p.

Предположим, монета подбрасывается 80 раз: т.е. выборка может быть чем-то вроде x 1  = H, x 2  = T,..., x 80  = T, и наблюдается подсчет количества голов «H».

Вероятность подбрасывания решки равна 1 -  p (так что здесь p равно θ). Предположим, что результат 49 голов и 31  хвосты, и предположим, что монета была взята из коробки, содержащей три монеты: один, который дает головки с вероятностью р  =  1 / 3, один, который дает головки с вероятностью р  =  1 / 2, а другой, который дает головки с вероятностью р  =  2 / 3. Монеты потеряли свои этикетки, поэтому неизвестно, какая именно. Используя оценку максимального правдоподобия, можно найти монету с наибольшим правдоподобием, учитывая наблюдаемые данные. Используя функцию вероятности массовой из биномиального распределения с образцом размером, равный 80, число успехов, равными 49, но при разных значениях р ( «вероятности успеха»), функция правдоподобия ( как определено ниже) принимает одно из трех значений:

п [ ЧАС знак равно 49 п знак равно 1 3 ] знак равно ( 80 49 ) ( 1 3 ) 49 ( 1 - 1 3 ) 31 год 0,000 , п [ ЧАС знак равно 49 п знак равно 1 2 ] знак равно ( 80 49 ) ( 1 2 ) 49 ( 1 - 1 2 ) 31 год 0,012 , п [ ЧАС знак равно 49 п знак равно 2 3 ] знак равно ( 80 49 ) ( 2 3 ) 49 ( 1 - 2 3 ) 31 год 0,054   . {\ displaystyle {\ begin {align} \ operatorname {\ mathbb {P}} {\ bigl [} \; \ mathrm {H} = 49 \ mid p = {\ tfrac {1} {3}} \; {\ bigr]} amp; = {\ binom {80} {49}} ({\ tfrac {1} {3}}) ^ {49} (1 - {\ tfrac {1} {3}}) ^ {31} \ приблизительно 0,000, \\ [6pt] \ operatorname {\ mathbb {P}} {\ bigl [} \; \ mathrm {H} = 49 \ mid p = {\ tfrac {1} {2}} \; {\ bigr ]} amp; = {\ binom {80} {49}} ({\ tfrac {1} {2}}) ^ {49} (1 - {\ tfrac {1} {2}}) ^ {31} \ приблизительно 0,012, \\ [6pt] \ operatorname {\ mathbb {P}} {\ bigl [} \; \ mathrm {H} = 49 \ mid p = {\ tfrac {2} {3}} \; {\ bigr] } amp; = {\ binom {80} {49}} ({\ tfrac {2} {3}}) ^ {49} (1 - {\ tfrac {2} {3}}) ^ {31} \ приблизительно 0,054 ~. \ end {выровнено}}}

Правдоподобия достигает максимума при р  =  2 / 3, и таким образом это является оценка максимального правдоподобия для  р.

Дискретное распределение, непрерывное пространство параметров

Теперь предположим, что была только одна монета, но ее p могло быть любым значением 0 ≤ p ≤ 1. Максимизируемая функция правдоподобия:

L ( п ) знак равно ж D ( ЧАС знак равно 49 п ) знак равно ( 80 49 ) п 49 ( 1 - п ) 31 год   , {\ displaystyle L (p) = f_ {D} (\ mathrm {H} = 49 \ mid p) = {\ binom {80} {49}} p ^ {49} (1-p) ^ {31} ~,}

и максимизация осуществляется по всем возможным значениям 0 ≤ p ≤ 1.

функция правдоподобия для значения пропорции биномиального процесса ( n  = 10)

Один из способов максимизировать эту функцию - дифференцировать по p и установить на ноль:

0 знак равно п ( ( 80 49 ) п 49 ( 1 - п ) 31 год )   , 0 знак равно 49 п 48 ( 1 - п ) 31 год - 31 год п 49 ( 1 - п ) 30 знак равно п 48 ( 1 - п ) 30 [ 49 ( 1 - п ) - 31 год п ] знак равно п 48 ( 1 - п ) 30 [ 49 - 80 п ]   . {\ displaystyle {\ begin {align} 0 amp; = {\ frac {\ partial} {\ partial p}} \ left ({\ binom {80} {49}} p ^ {49} (1-p) ^ {31 } \ right) ~, \\ [8pt] 0 amp; = 49p ^ {48} (1-p) ^ {31} -31p ^ {49} (1-p) ^ {30} \\ [8pt] amp; = p ^ {48} (1-p) ^ {30} \ left [49 (1-p) -31p \ right] \\ [8pt] amp; = p ^ {48} (1-p) ^ {30} \ left [49-80p \ right] ~. \ End {align}}}

Это продукт трех терминов. Первое слагаемое равно 0, когда р  = 0. второй равен 0, когда р  = 1. третий равен нулю, когда р  =  49 / 80. Решение, которое максимизирует вероятность, очевидно, p  =  49 ⁄ 80 (поскольку p  = 0 и p  = 1 приводят к вероятности 0). Таким образом, оценка максимального правдоподобия для р является 49 / 80.

Этот результат легко обобщить, заменив букву s вместо 49, чтобы обозначить наблюдаемое количество «успехов» наших испытаний Бернулли, и букву, такую ​​как n, вместо 80, чтобы обозначить количество испытаний Бернулли. Точно такой же расчет дает s ⁄ n, который является оценкой максимального правдоподобия для любой последовательности из n испытаний Бернулли, приведших к s «успехам».

Непрерывное распределение, непрерывное пространство параметров

Для нормального распределения, имеющего функцию плотности вероятности N ( μ , σ 2 ) {\ Displaystyle {\ mathcal {N}} (\ mu, \ sigma ^ {2})}

ж ( Икс μ , σ 2 ) знак равно 1 2 π σ 2   exp ( - ( Икс - μ ) 2 2 σ 2 ) , {\ displaystyle f (x \ mid \ mu, \ sigma ^ {2}) = {\ frac {1} {{\ sqrt {2 \ pi \ sigma ^ {2}}} \}} \ exp \ left (- {\ frac {(x- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right),}

соответствующая функция плотности вероятности для выборки из n независимых одинаково распределенных нормальных случайных величин (вероятность) равна

ж ( Икс 1 , , Икс п μ , σ 2 ) знак равно я знак равно 1 п ж ( Икс я μ , σ 2 ) знак равно ( 1 2 π σ 2 ) п / 2 exp ( - я знак равно 1 п ( Икс я - μ ) 2 2 σ 2 ) . {\ Displaystyle f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma ^ {2}) = \ prod _ {i = 1} ^ {n} f (x_ {i} \ mid \ mu, \ sigma ^ {2}) = \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ right) ^ {n / 2} \ exp \ left (- {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right).}

Это семейство распределений имеет два параметра: θ  = ( μ,  σ) ; поэтому мы максимизируем вероятность по обоим параметрам одновременно или, если возможно, по отдельности. L ( μ , σ ) знак равно ж ( Икс 1 , , Икс п μ , σ ) {\ displaystyle {\ mathcal {L}} (\ mu, \ sigma) = f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma)}

Поскольку сама функция логарифма является непрерывной строго возрастающей функцией в диапазоне правдоподобия, значения, которые максимизируют вероятность, также будут максимизировать ее логарифм (сама логарифм правдоподобия не обязательно строго возрастает). Логарифм правдоподобия можно записать следующим образом:

бревно ( L ( μ , σ ) ) знак равно - п 2 бревно ( 2 π σ 2 ) - 1 2 σ 2 я знак равно 1 п ( Икс я - μ ) 2 {\ displaystyle \ log {\ Bigl (} {\ mathcal {L}} (\ mu, \ sigma) {\ Bigr)} = - {\ frac {\, n \,} {2}} \ log (2 \ pi \ sigma ^ {2}) - {\ frac {1} {2 \ sigma ^ {2}}} \ sum _ {i = 1} ^ {n} (\, x_ {i} - \ mu \,) ^ {2}}

(Примечание: логарифмическая вероятность тесно связана с информационной энтропией и информацией Фишера. )

Теперь мы вычислим производные этого логарифмического правдоподобия следующим образом.

0 знак равно μ бревно ( L ( μ , σ ) ) знак равно 0 - - 2 п ( Икс ¯ - μ ) 2 σ 2 . {\ Displaystyle {\ begin {align} 0 amp; = {\ frac {\ partial} {\ partial \ mu}} \ log {\ Bigl (} {\ mathcal {L}} (\ mu, \ sigma) {\ Bigr) } = 0 - {\ frac {\; - 2 \! N ({\ bar {x}} - \ mu) \;} {2 \ sigma ^ {2}}}. \ End {align}}}

где - выборочное среднее. Это решается Икс ¯ {\ displaystyle {\ bar {x}}}

μ ^ знак равно Икс ¯ знак равно я знак равно 1 п Икс я п . {\ displaystyle {\ widehat {\ mu}} = {\ bar {x}} = \ sum _ {i = 1} ^ {n} {\ frac {\, x_ {i} \,} {n}}. }

Это действительно максимум функции, поскольку это единственная точка поворота в μ, а вторая производная строго меньше нуля. Его математическое ожидание равно параметру μ данного распределения,

E [ μ ^ ] знак равно μ , {\ Displaystyle \ OperatorName {\ mathbb {E}} {\ bigl [} \; {\ widehat {\ mu}} \; {\ bigr]} = \ mu, \,}

что означает, что оценка максимального правдоподобия несмещена. μ ^ {\ displaystyle {\ widehat {\ mu}}}

Аналогично дифференцируем логарифмическую вероятность по σ и приравниваем нулю:

0 знак равно σ бревно ( L ( μ , σ ) ) знак равно - п σ + 1 σ 3 я знак равно 1 п ( Икс я - μ ) 2 . {\ displaystyle {\ begin {align} 0 amp; = {\ frac {\ partial} {\ partial \ sigma}} \ log {\ Bigl (} {\ mathcal {L}} (\ mu, \ sigma) {\ Bigr) } = - {\ frac {\, n \,} {\ sigma}} + {\ frac {1} {\ sigma ^ {3}}} \ sum _ {i = 1} ^ {n} (\, x_ {i} - \ mu \,) ^ {2}. \ end {align}}}

который решается

σ ^ 2 знак равно 1 п я знак равно 1 п ( Икс я - μ ) 2 . {\ displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2 }.}

Подставляя оценку, получаем μ знак равно μ ^ {\ displaystyle \ mu = {\ widehat {\ mu}}}

σ ^ 2 знак равно 1 п я знак равно 1 п ( Икс я - Икс ¯ ) 2 знак равно 1 п я знак равно 1 п Икс я 2 - 1 п 2 я знак равно 1 п j знак равно 1 п Икс я Икс j . {\ displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}) }) ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} - {\ frac {1} {n ^ {2} }} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} x_ {i} x_ {j}.}

Чтобы вычислить его математическое ожидание, удобно переписать выражение в терминах случайных величин с нулевым средним ( статистическая ошибка ). Выражение оценки в этих переменных дает δ я μ - Икс я {\ Displaystyle \ дельта _ {я} \ эквив \ му -x_ {я}}

σ ^ 2 знак равно 1 п я знак равно 1 п ( μ - δ я ) 2 - 1 п 2 я знак равно 1 п j знак равно 1 п ( μ - δ я ) ( μ - δ j ) . {\ displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (\ mu - \ delta _ {i}) ^ {2} - {\ frac {1} {n ^ {2}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} (\ mu - \ delta _ { i}) (\ mu - \ delta _ {j}).}

Упрощая приведенное выше выражение, используя факты, которые и, позволяют нам получить E [ δ я ] знак равно 0 {\ Displaystyle \ OperatorName {\ mathbb {E}} {\ bigl [} \; \ delta _ {i} \; {\ bigr]} = 0} E [ δ я 2 ] знак равно σ 2 {\ Displaystyle \ OperatorName {E} {\ bigl [} \; \ delta _ {я} ^ {2} \; {\ bigr]} = \ sigma ^ {2}}

E [ σ ^ 2 ] знак равно п - 1 п σ 2 . {\ displaystyle \ operatorname {\ mathbb {E}} {\ bigl [} \; {\ widehat {\ sigma}} ^ {2} \; {\ bigr]} = {\ frac {\, n-1 \, } {n}} \ sigma ^ {2}.}

Это означает, что оценка смещена в сторону. Также может быть показано, что это предвзято, но что и то, и другое непротиворечиво. σ ^ 2 {\ Displaystyle {\ widehat {\ sigma}} ^ {2}} σ 2 {\ displaystyle \ sigma ^ {2}} σ ^ {\ displaystyle {\ widehat {\ sigma}}} σ {\ displaystyle \ sigma} σ ^ 2 {\ Displaystyle {\ widehat {\ sigma}} ^ {2}} σ ^ {\ displaystyle {\ widehat {\ sigma}}}

Формально мы говорим, что оценка максимального правдоподобия для является θ знак равно ( μ , σ 2 ) {\ Displaystyle \ theta = (\ му, \ sigma ^ {2})}

θ ^ знак равно ( μ ^ , σ ^ 2 ) . {\ displaystyle {\ widehat {\ theta \,}} = \ left ({\ widehat {\ mu}}, {\ widehat {\ sigma}} ^ {2} \ right).}

В этом случае MLE могут быть получены индивидуально. В общем, это может быть не так, и MLE должны быть получены одновременно.

Нормальная логарифмическая вероятность в максимуме принимает особенно простую форму:

бревно ( L ( μ ^ , σ ^ ) ) знак равно - п 2 ( бревно ( 2 π σ ^ 2 ) + 1 ) {\ displaystyle \ log {\ Bigl (} {\ mathcal {L}} ({\ widehat {\ mu}}, {\ widehat {\ sigma}}) {\ Bigr)} = {\ frac {\, - п \; \;} {2}} {\ bigl (} \, \ log (2 \ pi {\ widehat {\ sigma}} ^ {2}) + 1 \, {\ bigr)}}

Можно показать, что это максимальное логарифмическое правдоподобие одинаково для более общих наименьших квадратов, даже для нелинейных наименьших квадратов. Это часто используется при определении правдоподобия на основе приблизительных доверительных интервалов и доверительные областей, которые обычно более точным, чем те, которые используют асимптотическую нормальность описанную выше.

Несамостоятельные переменные

Может случиться так, что переменные коррелированы, то есть не независимы. Две случайные величины и независимы только в том случае, если их совместная функция плотности вероятности является произведением отдельных функций плотности вероятности, т. Е. у 1 {\ displaystyle y_ {1}} у 2 {\ displaystyle y_ {2}}

ж ( у 1 , у 2 ) знак равно ж ( у 1 ) ж ( у 2 ) {\ Displaystyle f (y_ {1}, y_ {2}) = f (y_ {1}) f (y_ {2}) \,}

Предположим, кто-то строит гауссовский вектор порядка n из случайных величин, где каждая переменная имеет средние значения, равные. Кроме того, пусть ковариационная матрица обозначается. Совместная функция плотности вероятности этих n случайных величин следует многомерному нормальному распределению, задаваемому формулой: ( у 1 , , у п ) {\ displaystyle (y_ {1}, \ ldots, y_ {n})} ( μ 1 , , μ п ) {\ Displaystyle (\ му _ {1}, \ ldots, \ му _ {п})} Σ {\ Displaystyle {\ mathit {\ Sigma}}}

ж ( у 1 , , у п ) знак равно 1 ( 2 π ) п / 2 Det ( Σ ) exp ( - 1 2 [ у 1 - μ 1 , , у п - μ п ] Σ - 1 [ у 1 - μ 1 , , у п - μ п ] Т ) {\ displaystyle f (y_ {1}, \ ldots, y_ {n}) = {\ frac {1} {(2 \ pi) ^ {n / 2} {\ sqrt {\ det ({\ mathit {\ Sigma }})}}}} \ exp \ left (- {\ frac {1} {2}} \ left [y_ {1} - \ mu _ {1}, \ ldots, y_ {n} - \ mu _ { n} \ right] {\ mathit {\ Sigma}} ^ {- 1} \ left [y_ {1} - \ mu _ {1}, \ ldots, y_ {n} - \ mu _ {n} \ right] ^ {\ mathrm {T}} \ right)}

В двумерном случае совместная функция плотности вероятности определяется выражением:

ж ( у 1 , у 2 ) знак равно 1 2 π σ 1 σ 2 1 - ρ 2 exp [ - 1 2 ( 1 - ρ 2 ) ( ( у 1 - μ 1 ) 2 σ 1 2 - 2 ρ ( у 1 - μ 1 ) ( у 2 - μ 2 ) σ 1 σ 2 + ( у 2 - μ 2 ) 2 σ 2 2 ) ] {\ displaystyle f (y_ {1}, y_ {2}) = {\ frac {1} {2 \ pi \ sigma _ {1} \ sigma _ {2} {\ sqrt {1- \ rho ^ {2} }}}} \ exp \ left [- {\ frac {1} {2 (1- \ rho ^ {2})}} \ left ({\ frac {(y_ {1} - \ mu _ {1}) ^ {2}} {\ sigma _ {1} ^ {2}}} - {\ frac {2 \ rho (y_ {1} - \ mu _ {1}) (y_ {2} - \ mu _ {2 })} {\ sigma _ {1} \ sigma _ {2}}} + {\ frac {(y_ {2} - \ mu _ {2}) ^ {2}} {\ sigma _ {2} ^ { 2}}} \ right) \ right]}

В этом и других случаях, когда существует совместная функция плотности, функция правдоподобия определяется, как указано выше, в разделе « Принципы », с использованием этой плотности.

Пример

Икс 1 ,   Икс 2 , ,   Икс м {\ Displaystyle X_ {1}, \ X_ {2}, \ ldots, \ X_ {m}}- счета в ячейках / ящиках от 1 до m; каждая коробка имеет различную вероятность (думаю, из коробки быть больше или меньше) и фиксируем количество шаров, которые падают быть:. Вероятность каждой коробки, с ограничением:. В этом случае s не являются независимыми, совместная вероятность вектора называется полиномиальной и имеет вид: п {\ displaystyle n} Икс 1 + Икс 2 + + Икс м знак равно п {\ displaystyle x_ {1} + x_ {2} + \ cdots + x_ {m} = n} п я {\ displaystyle p_ {i}} п 1 + п 2 + + п м знак равно 1 {\ displaystyle p_ {1} + p_ {2} + \ cdots + p_ {m} = 1} Икс я {\ displaystyle X_ {i}} Икс 1 ,   Икс 2 , , Икс м {\ Displaystyle x_ {1}, \ x_ {2}, \ ldots, x_ {m}}

ж ( Икс 1 , Икс 2 , , Икс м п 1 , п 2 , , п м ) знак равно п ! Π Икс я ! Π п я Икс я знак равно ( п Икс 1 , Икс 2 , , Икс м ) п 1 Икс 1 п 2 Икс 2 п м Икс м {\ displaystyle f (x_ {1}, x_ {2}, \ ldots, x_ {m} \ mid p_ {1}, p_ {2}, \ ldots, p_ {m}) = {\ frac {n!} {\ Pi x_ {i}!}} \ Pi p_ {i} ^ {x_ {i}} = {\ binom {n} {x_ {1}, x_ {2}, \ ldots, x_ {m}}} p_ {1} ^ {x_ {1}} p_ {2} ^ {x_ {2}} \ cdots p_ {m} ^ {x_ {m}}}

Каждый ящик, взятый отдельно от всех остальных, является биномом и является его продолжением.

Логарифмическая вероятность этого:

( п 1 , п 2 , , п м ) знак равно бревно п ! - я знак равно 1 м бревно Икс я ! + я знак равно 1 м Икс я бревно п я {\ displaystyle \ ell (p_ {1}, p_ {2}, \ ldots, p_ {m}) = \ log n! - \ sum _ {i = 1} ^ {m} \ log x_ {i}! + \ sum _ {i = 1} ^ {m} x_ {i} \ log p_ {i}}

Необходимо принять во внимание ограничение и использовать множители Лагранжа:

L ( п 1 , п 2 , , п м , λ ) знак равно ( п 1 , п 2 , , п м ) + λ ( 1 - я знак равно 1 м п я ) {\ displaystyle L (p_ {1}, p_ {2}, \ ldots, p_ {m}, \ lambda) = \ ell (p_ {1}, p_ {2}, \ ldots, p_ {m}) + \ лямбда \ left (1- \ sum _ {i = 1} ^ {m} p_ {i} \ right)}

Приравнивая все производные к нулю, получается наиболее естественная оценка

п ^ я знак равно Икс я п {\ displaystyle {\ hat {p}} _ {i} = {\ frac {x_ {i}} {n}}}

Увеличение вероятности записи журнала, с ограничениями и без них, может быть неразрешимой проблемой в закрытой форме, тогда мы должны использовать итерационные процедуры.

Итерационные процедуры

За исключением особых случаев, уравнения правдоподобия

( θ ; у ) θ знак равно 0 {\ displaystyle {\ frac {\ partial \ ell (\ theta; \ mathbf {y})} {\ partial \ theta}} = 0}

не может быть решена явно для оценщика. Вместо этого их нужно решать итеративно : начиная с первоначального предположения (скажем), нужно получить сходящуюся последовательность. Доступно множество методов для такого рода задач оптимизации, но наиболее часто используемые из них - это алгоритмы, основанные на формуле обновления вида θ ^ знак равно θ ^ ( у ) {\ displaystyle {\ widehat {\ theta}} = {\ widehat {\ theta}} (\ mathbf {y})} θ {\ displaystyle \ theta} θ ^ 1 {\ displaystyle {\ widehat {\ theta}} _ {1}} { θ ^ р } {\ displaystyle \ left \ {{\ widehat {\ theta}} _ {r} \ right \}}

θ ^ р + 1 знак равно θ ^ р + η р d р ( θ ^ ) {\ displaystyle {\ widehat {\ theta}} _ {r + 1} = {\ widehat {\ theta}} _ {r} + \ eta _ {r} \ mathbf {d} _ {r} \ left ({ \ widehat {\ theta}} \ right)}

где вектор указывает направление спуска в г - м «шаг» и скалярных захватывает «длины шага», также известный как скорости обучения. d р ( θ ^ ) {\ displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right)} η р {\ displaystyle \ eta _ {r}}

Метод градиентного спуска

(Примечание: здесь проблема максимизации, поэтому знак перед градиентом переворачивается)

η р р + {\ displaystyle \ eta _ {r} \ in \ mathbb {R} ^ {+}} это достаточно мало для сходимости и d р ( θ ^ ) знак равно ( θ ^ р ; у ) {\ displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right) = \ nabla \ ell \ left ({\ widehat {\ theta}} _ {r}; \ mathbf { y} \ right)}

Метод градиентного спуска требует вычисления градиента на r-й итерации, но не требует вычисления обратной производной второго порядка, то есть матрицы Гессе. Следовательно, он в вычислительном отношении быстрее, чем метод Ньютона-Рафсона.

Метод Ньютона – Рафсона

η р знак равно 1 {\ displaystyle \ eta _ {r} = 1} а также d р ( θ ^ ) знак равно - ЧАС р - 1 ( θ ^ ) s р ( θ ^ ) {\ displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right) = - \ mathbf {H} _ {r} ^ {- 1} \ left ({\ widehat {\ theta}} \ right) \ mathbf {s} _ {r} \ left ({\ widehat {\ theta}} \ right)}

где это оценка и является обратным из матрицы Гессе функции логарифмического правдоподобия, и оценивали г - й итерации. Но поскольку вычисление матрицы Гессе требует больших вычислительных ресурсов, было предложено множество альтернатив. Популярный алгоритм Берндта – Холла – Холла – Хаусмана аппроксимирует гессиан внешним произведением ожидаемого градиента, так что s р ( θ ^ ) {\ displaystyle \ mathbf {s} _ {r} ({\ widehat {\ theta}})} ЧАС р - 1 ( θ ^ ) {\ displaystyle \ mathbf {H} _ {r} ^ {- 1} \ left ({\ widehat {\ theta}} \ right)}

d р ( θ ^ ) знак равно - [ 1 п т знак равно 1 п ( θ ; у ) θ ( ( θ ; у ) θ ) Т ] - 1 s р ( θ ^ ) {\ displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right) = - \ left [{\ frac {1} {n}} \ sum _ {t = 1} ^ {n} {\ frac {\ partial \ ell (\ theta; \ mathbf {y})} {\ partial \ theta}} \ left ({\ frac {\ partial \ ell (\ theta; \ mathbf {y}) } {\ partial \ theta}} \ right) ^ {\ mathsf {T}} \ right] ^ {- 1} \ mathbf {s} _ {r} \ left ({\ widehat {\ theta}} \ right) }

Квазиньютоновские методы

В других квазиньютоновских методах используются более сложные обновления секущей для аппроксимации матрицы Гессе.

Формула Дэвидона – Флетчера – Пауэлла

Формула DFP находит симметричное, положительно определенное решение, наиболее близкое к текущему приблизительному значению производной второго порядка:

ЧАС k + 1 знак равно ( я - γ k у k s k Т ) ЧАС k ( я - γ k s k у k Т ) + γ k у k у k Т , {\ displaystyle \ mathbf {H} _ {k + 1} = \ left (I- \ gamma _ {k} y_ {k} s_ {k} ^ {\ mathsf {T}} \ right) \ mathbf {H} _ {k} \ left (I- \ gamma _ {k} s_ {k} y_ {k} ^ {\ mathsf {T}} \ right) + \ gamma _ {k} y_ {k} y_ {k} ^ {\ mathsf {T}},}

куда

у k знак равно ( Икс k + s k ) - ( Икс k ) , {\ displaystyle y_ {k} = \ nabla \ ell (x_ {k} + s_ {k}) - \ nabla \ ell (x_ {k}),}
γ k знак равно 1 у k Т s k , {\ displaystyle \ gamma _ {k} = {\ frac {1} {y_ {k} ^ {T} s_ {k}}},}
s k знак равно Икс k + 1 - Икс k . {\ displaystyle s_ {k} = x_ {k + 1} -x_ {k}.}

Алгоритм Бройдена – Флетчера – Гольдфарба – Шенно

BFGS также дает решение, которое является симметричным и положительно определенным:

B k + 1 знак равно B k + у k у k Т у k Т s k - B k s k s k Т B k Т s k Т B k s k   , {\ displaystyle B_ {k + 1} = B_ {k} + {\ frac {y_ {k} y_ {k} ^ {\ mathsf {T}}} {y_ {k} ^ {\ mathsf {T}} s_ {k}}} - {\ frac {B_ {k} s_ {k} s_ {k} ^ {\ mathsf {T}} B_ {k} ^ {\ mathsf {T}}} {s_ {k} ^ { \ mathsf {T}} B_ {k} s_ {k}}} \,}

куда

у k знак равно ( Икс k + s k ) - ( Икс k ) , {\ displaystyle y_ {k} = \ nabla \ ell (x_ {k} + s_ {k}) - \ nabla \ ell (x_ {k}),}
s k знак равно Икс k + 1 - Икс k . {\ displaystyle s_ {k} = x_ {k + 1} -x_ {k}.}

Сходимость метода BFGS не гарантируется, если функция не имеет квадратичного разложения Тейлора вблизи оптимума. Тем не менее, BFGS может иметь приемлемую производительность даже для экземпляров неплавной оптимизации.

Оценка Фишера

Другой популярный метод - замена гессиана информационной матрицей Фишера, что дает нам алгоритм оценки Фишера. Эта процедура является стандартной при оценке многих методов, таких как обобщенные линейные модели. я ( θ ) знак равно E [ ЧАС р ( θ ^ ) ] {\ displaystyle {\ mathcal {I}} (\ theta) = \ operatorname {\ mathbb {E}} \ left [\ mathbf {H} _ {r} \ left ({\ widehat {\ theta}} \ right) \Правильно]}

Несмотря на свою популярность, квазиньютоновские методы могут сходиться к стационарной точке, которая не обязательно является локальным или глобальным максимумом, а скорее является локальным минимумом или седловой точкой. Следовательно, важно оценить достоверность полученного решения уравнений правдоподобия, проверив, что гессиан, вычисленный в решении, является как отрицательно определенным, так и хорошо обусловленным.

История

Рональд Фишер в 1913 году

Первыми пользователями с максимальной вероятностью были Карл Фридрих Гаусс, Пьер-Симон Лаплас, Торвальд Н. Тиле и Фрэнсис Исидро Эджворт. Однако его широкое распространение возросло между 1912 и 1922 годами, когда Рональд Фишер рекомендовал, широко популяризировал и тщательно проанализировал оценку максимального правдоподобия (с бесплодными попытками доказательства ).

Оценка максимального правдоподобия наконец вышла за рамки эвристического обоснования в доказательстве, опубликованном Сэмюэлем С. Уилксом в 1938 году, теперь называемом теоремой Уилкса. Теорема показывает, что ошибка логарифма значений правдоподобия для оценок из нескольких независимых наблюдений асимптотически χ  2 -распределена, что позволяет удобно определять доверительную область вокруг любой оценки параметров. Единственная сложная часть доказательства Уилкса зависит от ожидаемого значения информационной матрицы Фишера, которое обеспечивается теоремой, доказанной Фишером. Уилкс продолжал улучшать общность теоремы на протяжении всей своей жизни, и его наиболее общее доказательство было опубликовано в 1962 году.

Обзоры разработки метода максимального правдоподобия предоставлены рядом авторов.

Смотрите также

Связанные понятия

Другие методы оценки

использованная литература

дальнейшее чтение

  • Крамер, JS (1986). Эконометрические приложения методов максимального правдоподобия. Нью-Йорк, Нью-Йорк: Издательство Кембриджского университета. ISBN   0-521-25317-9.
  • Элиасон, Скотт Р. (1993). Оценка максимального правдоподобия: логика и практика. Парк Ньюбери: Сейдж. ISBN   0-8039-4107-2.
  • Кинг, Гэри (1989). Объединяющая политическая методология: теория вероятности статистического вывода. Издательство Кембриджского университета. ISBN   0-521-36697-6.
  • Ле Кам, Люсьен (1990). «Максимальная вероятность: Введение». Обзор ISI. 58 (2): 153–171. JSTOR   1403464.
  • Магнус, Ян Р. (2017). «Максимальное правдоподобие». Введение в теорию эконометрики. Амстердам, Нидерланды: VU University Press. С. 53–68. ISBN   978-90-8659-766-6.
  • Миллар, Рассел Б. (2011). Оценка и вывод максимального правдоподобия. Хобокен, Нью-Джерси: Уайли. ISBN   978-0-470-09482-2.
  • Пиклз, Эндрю (1986). Введение в анализ правдоподобия. Норидж: WH Hutchins amp; Sons. ISBN   0-86094-190-6.
  • Северини, Томас А. (2000). Методы правдоподобия в статистике. Нью-Йорк, Нью-Йорк: Издательство Оксфордского университета. ISBN   0-19-850650-3.
  • Уорд, Майкл Д. ; Алквист, Джон С. (2018). Максимальная вероятность социальных наук: стратегии анализа. Издательство Кембриджского университета. ISBN   978-1-316-63682-4.

внешние ссылки

Последняя правка сделана 2024-01-02 02:52:35
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте