Функция правдоподобия

редактировать
Функция, относящаяся к статистике и теории вероятностей

В статистике, правдоподобие функция (часто называемая просто правдоподобием ) измеряет степень статистической модели выборке данных для заданных значений неизвестных параметров. Он формирует совместное распределение вероятностей, но используется как функция от параметров, таким образом обрабатывая случайные величины как фиксированные на наблюдаемых значениях.

Функция правдоподобия является гиперповерхность, пик которой, если он существует, представляет собой комбинацию параметров модели, которые максимизируют вероятность получения полученной выборки. Процедура получения этих аргументов предела функции правдоподобия известна как оценка размера правдоподобия, которая для удобства вычислений обычно выполняется с использованием натурального логарифма от вероятности, известная как функция функция логарифма правдоподобия . Кроме того, форма и кривизна поверхности правдоподобия изменит информацию об стабильности оценок, функция правдоподобия часто строится как часть статистического анализа.

Случай для использования правдоподобия впервые было сделано Р. А. Фишер, считывающий, что это автономная структура для статистического вывода. Позже Барнард и Бирнбаум возглавили школу, которая защищала принцип правдоподобия, постулируя, что вся соответствующая информация для вывода содержит в функции правдоподобия. Но как в частотной, так и в байесовской статистике функция правдоподобия играет фундаментальную роль.

Содержание

  • 1 Определение
    • 1.1 Дискретное распределение вероятностей
      • 1.1.1 Пример
    • 1.2 Непрерывное распределение вероятностей
    • 1.3 В целом
    • 1.4 Функция правдоподобия параметров модели
      • 1.4.1 Вероятность для непрерывных распределений
    • 1.5 Вероятность для смешанных непрерывно-дискретных распределений
    • 1.6 Регулярность
  • 2 Отношение правдоподобия и относительное правдоподобие
    • 2.1 Отношение правдоподобия
      • 2.1.1 Различие к использованию шансов
    • 2.2 Функция относительного правдоподобия
      • 2.2.1 Область правдоподобия
  • 3 Вероятности, исключающие нежелательные параметры
    • 3.1 Профиль правдоподобия
    • 3.2 Условное правдоподобия
    • 3.3 Предельное правдоподобие
    • 3.4 Частичное правдоподобие
  • 4 Продукты правдоподобия
  • 5 Логарифмическое правдоподобие
    • 5.1 Уравнения правдоподобия
    • 5.2 Экспоненциальные семейства
      • 5.2.1 Пример: гамма-распределение
  • 6 Предпосылки и интерпретация
    • 6. 1 Исторические заметки
    • 6.2 Интерпретация на разных основаниях
      • 6.2.1 Частотная интерпретация
      • 6.2.2 Байесовская интерпретация
      • 6.2.3 Правдоподобная интерпретация
      • 6.2.4 Интерпретация на основе AIC
  • 7 См.. также
  • 8 Примечания
  • 9 Ссылки
  • 10 Дополнительная литература
  • 11 Ссылки

Определение

Функция правдоподобия определяется обычно по-разному для дискретных и непрерывных распределений вероятностей. Также возможно общее определение, как обсуждается ниже.

Дискретное распределение вероятностей

Пусть X {\ displaystyle X}X будет дискретной случайной величиной с функцией массы вероятности p {\ displaystyle p}p в зависимости от параметра θ {\ displaystyle \ theta}\ theta . Тогда функция

L (θ ∣ x) = p θ (x) = P θ (X = x), {\ displaystyle {\ mathcal {L}} (\ theta \ mid x) = p _ {\ theta} (x) = P _ {\ theta} (X = x),}{\ displaystyle {\ mathcal {L}} (\ theta \ mid x) знак равно п _ {\ theta} (x) = P _ {\ theta} (X = x),}

, рассматриваемый как функция от θ {\ displaystyle \ theta}\ theta , является функцией правдоподобия, учитывая результат x {\ displaystyle x}x случайной величины X {\ displaystyle X}X . Иногда вероятность «значения x {\ displaystyle x}x из X {\ displaystyle X}X для значения параметра θ {\ displaystyle \ theta}\ theta "записывается как P (X = x | θ) или P (X = x; θ). L (θ ∣ x) {\ displaystyle {\ mathcal {L}} (\ theta \ mid x)}{\ displaystyle {\ mathcal {L}} (\ theta \ mid x)} не следует путать с p (θ ∣ x) {\ displaystyle p (\ theta \ mid x)}{\ displaystyle p (\ theta \ mid x)} ; вероятность вероятности того, что потенциально результат x {\ displaystyle x}x наблюдается, когда истинное значение равно θ {\ displaystyle \ theta}\ theta , и, следовательно, он равен плотности вероятности по исходу x {\ displaystyle x}x , а не по параметру θ {\ displaystyle \ theta}\ theta .

Пример

Рис. 1. Функция правдоподобия (p H 2 {\ displaystyle p _ {\ text {H}} ^ {2}}p_ \ text {Н} ^ 2 ) для вероятности выпадения монеты один на один (без предварительного знания честности монеты), учитывая, что мы наблюдали HH. Рисунок 2. Функция правдоподобия (п ЧАС 2 (1 - p H) {\ displaystyle p _ {\ text {H}} ^ {2} (1-p _ {\ text {H}})}{\ displaystyle p _ {\ text {H}} ^ {2 } (1-p _ {\ текст {H}})} ) для вероятности выпадения хедз-ап (без предварительного изучения честности монеты), учитывая, что мы наблюдали HHT.

Рассмотрим простую статистическую модель подбрасывания монеты: единственный параметр p H {\ displaystyle p _ {\ text {H}}}p_ \ text {H} , который выражает «справедливость» монета. Параметр - это вероятность того, что монета упадет орлом («H») при подбрасывании. p H {\ displaystyle p _ {\ text {H}}}p_ \ text {H} может принимать любое значение в диапазоне от 0,0 до 1,0. Для идеально честной монеты, p H = 0,5 {\ displaystyle p _ {\ text {H}} = 0,5}p_ \ text {H} = 0,5 .

Представьте себе, что дважды подбрасываете честную монету и наблюдаете следующие данные: две головы в два броска («Ч-Х»). Если предположить, что каждый последующий подбрасывание монеты составляет i.i.d., тогда вероятность наблюдения HH составляет

P (HH ∣ p H = 0,5) = 0,5 2 = 0,25. {\ displaystyle P ({\ text {HH}} \ mid p _ {\ text {H}} = 0,5) = 0,5 ^ {2} = 0,25.}{\ displaystyle P ({\ text {HH}} \ mid p _ {\ text {H}} = 0,5) = 0,5 ^ {2} = 0,25.}

Следовательно, указанные данные HH, вероятность того, что параметр модели p H {\ displaystyle p _ {\ text {H}}}p_ \ text {H} равен 0,5, равен 0,25. Математически это записывается как

L (p H = 0,5 ∣ HH) = 0,25. {\ displaystyle {\ mathcal {L}} (p _ {\ text {H}} = 0,5 \ mid {\ text {HH}}) = 0,25.}{\ displaystyle { \ mathcal {L}} (p _ {\ text {H}} = 0,5 \ mid {\ text {HH}}) = 0,25.}

Это не то же самое, что сказать, что вероятность того, что p H = 0,5 {\ displaystyle p _ {\ text {H}} = 0,5}p_ \ text {H} = 0,5 , учитывая наблюдение HH, составляет 0,25. (Для этого мы могли бы применить теорему Байеса, из которой следует, что апостериорная вероятность измена правдоподобию, умноженному на априорную вероятность.)

Предположим, что монета нечестная, но вместо этого он имеет п Н = 0,3 {\ displaystyle p _ {\ text {H}} = 0,3}{\ displaystyle p _ {\ text {H}} = 0.3} . Тогда вероятность выпадения двух решек равна

P (HH ∣ p H = 0,3) = 0,3 2 = 0,09. {\ displaystyle P ({\ text {HH}} \ mid p _ {\ text {H}} = 0,3) = 0,3 ^ {2} = 0,09.}{\ displaystyle P ({\ text {HH}} \ mid p _ {\ text {H}} = 0,3) = 0,3 ^ {2} = 0,09.}

Следовательно,

L (p H = 0,3 HH) = 0,09. {\ displaystyle {\ mathcal {L}} (p _ {\ text {H}} = 0,3 \ mid {\ text {HH}}) = 0,09.}{\ displaystyle {\ mathcal {L}} (p _ {\ text {H}} = 0,3 \ mid {\ text {HH}}) = 0,09.}

В общем, для каждого значения p H {\ displaystyle p _ {\ text {H}}}p_ \ text {H} , мы можем вычислить соответствующую вероятность. Результат таких вычислений показан на рисунке 1.

На рисунке 1 интеграл правдоподобия по интервалу [0, 1] равенство 1/3. Это иллюстрирует важный аспект вероятностей: вероятность не интегрироваться (или суммироваться) до 1, в отличие от вероятностей.

Непрерывное распределение вероятностей

Пусть X {\ displaystyle X}X будет случайной величиной, используя абсолютно непрерывному распределению вероятностей с функцией плотности f {\ displaystyle f}fв зависимости от параметра θ {\ displaystyle \ theta}\ theta . Тогда функция

L (θ ∣ x) = е θ (x), {\ displaystyle {\ mathcal {L}} (\ theta \ mid x) = f _ {\ theta} (x), \,}{\ displaystyle {\ mathcal {L}} (\ theta \ mid x) = f _ {\ theta} (x), \,}

, рассматриваемая как функция от θ {\ displaystyle \ theta}\ theta , является функцией правдоподобия (от θ {\ displaystyle \ theta}\ theta с учетом результат x {\ displaystyle x}x из X {\ displaystyle X}X ). Иногда функция плотности для "значения x {\ displaystyle x}x из X {\ displaystyle X}X для значения параметра θ {\ displaystyle \ theta}\ theta "записывается как f (x ∣ θ) {\ displaystyle f (x \ mid \ theta)}{\ displaystyle f (x \ mid \ theta)} . L (θ ∣ x) {\ displaystyle {\ mathcal {L}} ( \ theta \ mid x)}{\ displaystyle {\ mathcal {L}} (\ theta \ mid x)} не следует путать с f (θ ∣ x) {\ displaystyle f (\ theta \ mid x)}{\ displaystyle f (\ theta \ mid x)} ; вероятность плотности вероятности для конкретного результата x {\ displaystyle x}x , когда истинное значение параметра равно θ {\ displaystyle \ theta}\ theta , и, следовательно, он равенство плотности вероятности по исходу x {\ displaystyle x}x , а не по параметру θ {\ displaystyle \ theta}\ theta .

В целом

В теории вероятностей функция плотности определяется как производная Радона - Никодима распределения вероятностей относительно доминирующего мера. Функция правдоподобия - это плотность, интерпретируемая как функция свойства (возможно, явления), а не возможности результатов. Это обеспечивает функцию правдоподобия для любой статистической модели со всеми распределенными, будь то дискретное, абсолютно непрерывное, смешанное или что-то еще. (Вероятности сопоставимы, например, для оценки параметров, если они являются производными Радона - Никодима по одной и той же доминирующей мере.)

Вышеупомянутое обсуждение правдоподобия с дискретными вероятностями является частным случаем с использованием счетной мера, которая делает вероятность любого отдельного результата равной плотности вероятности для этого результата.

Если событие отсутствует (нет данных), вероятность и, следовательно, правдоподобие равны 1; любое нетривиальное событие будет иметь меньшую вероятность.

Функция правдоподобия параметризованной модели

Среди множества приложений мы рассматриваем здесь одно, имеющее большое теоретическое и практическое значение. Учитывая параметризованное семейство из функций плотности вероятности (или функций плотности вероятности в случае дискретных распределений)

x ↦ f (x ∣ θ), {\ displaystyle x \ mapsto f (x \ mid \ theta), \!}Икс \ mapsto е (х \ середина \ тета), \!

где θ {\ displaystyle \ theta}\ theta - параметр, функция правдоподобия равно

θ ↦ е (x ∣ θ), {\ displaystyle \ theta \ mapsto f (x \ mid \ theta), \!}\ theta \ mapsto f (x \ mid \ theta), \!

записано

L (θ ∣ x) = f (x ∣ θ), { \ displaystyle {\ mathcal {L}} (\ theta \ mid x) = f (x \ mid \ theta), \!}\ mathcal {L} (\ theta \ mid x) = f (x \ mid \ theta), \!

где x {\ displaystyle x}x - наблюдаемый результат эксперимента. Другими словами, когда f (x ∣ θ) {\ displaystyle f (x \ mid \ theta)}{\ displaystyle f (x \ mid \ theta)} рассматривается как функция от x {\ displaystyle x}x с фиксированным θ {\ displaystyle \ theta}\ theta , это функция плотности вероятности, и если рассматривать ее как функцию от θ {\ displaystyle \ theta}\ theta с фиксированным x {\ displaystyle x}x , это функция правдоподобия.

Это не то же самое, что вероятность того, что эти параметры являются правильными для наблюдаемой выборки. Попытка интерпретировать вероятность гипотезы с учетом вероятных вероятных гипотезы - обычная ошибка с маленькими катастрофическими последствиями. См. Пример ошибки прокурора.

С геометрической точки зрения, если мы рассмотрим f (x ∣ θ) {\ displaystyle f (x \ mid \ theta)}{\ displaystyle f (x \ mid \ theta)} как функцию двух чисел, то семейство распределений вероятностей можно рассматривать как семейство кривых, параллельных осей x {\ displaystyle x}x , а семейство функций правдоподобия представляет собой ортогональные кривые, параллельные оси θ {\ displaystyle \ theta}\ theta - ось.

Вероятности для непрерывных распределений

Использование плотности вероятности при указании функции правдоподобия выше оправдано следующим образом. Учитывая наблюдение xj {\ displaystyle x_ {j}}x_ {j} , вероятность для интервала [xj, xj + h] {\ displaystyle [x_ {j}, x_ {j} + h] }{\ displaystyle [x_ {j}, x_ {j} + h]} , где h>0 {\ displaystyle h>0}{\displaystyle h>0} объявляется константой, задается как L (θ ∣ x ∈ [xj, xj + hyle]) {math L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h])}{\ displaystyle {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h])} . Обратите внимание, что

argmax θ ⁡ L (θ ∣ x ∈ [ xj, xj + h]) = argmax θ ⁡ 1 час L (θ ∣ x ∈ [xj, xj + h]) {\ displaystyle \ operatorname {argmax} _ {\ theta} {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h]) = \ operatorname {argmax} _ {\ theta} {\ frac {1} {h}} {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h])}{\ displaystyle \ operatorname {argmax} _ {\ theta} {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h]) = \ operatorname {argmax } _ {\ theta} {\ frac {1} {h}} {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h])} ,

, поскольку h {\ displaystyle h}h положительное и постоянное значение. Времена

argmax θ ⁡ 1 h L (θ ∣ x ∈ [xj, xj + h]) = argmax θ ⁡ 1 час Pr (xj ≤ x ≤ xj + h ∣ θ) = argmax θ ⁡ 1 час ∫ x jxj + hf (x ∣ θ) dx, {\ displaystyle \ operatorname {argmax} _ {\ theta} {\ frac {1 } {h}} {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h]) = \ operatorname {argmax} _ {\ theta} {\ frac {1 } {h}} \ Pr (x_ {j} \ leq x \ leq x_ {j} + h \ mid \ theta) = \ operatorname {argmax} _ {\ theta} {\ frac {1} {h}} \ int _ {x_ {j}} ^ {x_ {j} + h} f (x \ mid \ theta) \, dx,}{\ displaystyle \ oper atorname {argmax} _ {\ theta} {\ frac {1} {h}} {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h]) = \ operatorname {argmax} _ {\ theta} {\ frac {1} {h}} \ Pr (x_ {j} \ leq x \ leq x_ {j} + h \ mid \ theta) = \ operatorname {argmax} _ { \ theta} {\ frac {1} {h}} \ int _ {x_ {j}} ^ {x_ {j} + h} f (x \ mid \ theta) \, dx,}

где f (x ∣ θ) {\ displaystyle f (x \ mid \ theta)}{\ displaystyle f (x \ mid \ theta)} - функция плотности вероятности, отсюда следует, что

argmax θ ⁡ L (θ ∣ x ∈ [xj, xj + h]) = argmax θ ⁡ 1 час ∫ xjxj + hf (Икс ∣ θ) dx {\ displaystyle \ operatorname {argmax} _ {\ theta} {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h]) = \ имя оператора {argmax} _ {\ theta} {\ frac {1} {h}} \ int _ {x_ {j}} ^ {x_ {j} + h} f (x \ mid \ theta) \, dx}{\ displaystyle \ operatorname {argmax} _ {\ theta} {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h]) = \ operatorname {argmax} _ { \ theta} {\ frac {1} {h}} \ int _ {x_ {j}} ^ {x_ {j} + h} f (x \ mid \ theta) \, dx} .

Первая основная теорема исчисления и Л'Опиталь Правило вместе обеспечивает, что

lim h → 0 + 1 h ∫ xjxj + hf (x ∣ θ) dx = lim h → 0 + ddh ∫ xjxj + hf (x ∣ θ) dxdhdh = lim h → 0 + f (xj + h ∣ θ) 1 = f (xj ∣ θ). {\ displaystyle {\ begin {align} \ lim _ {h \ to 0 ^ {+}} {\ frac {1} {h}} \ int _ {x_ {j}} ^ {x_ {j} + h } f (x \ mid \ theta) \, dx = \ lim _ {h \ to 0 ^ {+}} {\ frac {{\ frac {d} {dh}} \ int _ {x_ {j}} ^ {x_ {j} + h} f (x \ mid \ theta) \, dx} {\ frac {dh} {dh}}} \\ [4pt] = {} \ lim _ {h \ to 0 ^ { +}} {\ frac {f (x_ {j} + h \ mid \ theta)} {1}} = f (x_ {j} \ mid \ theta). \ end {align}}}{\ displaystyle {\ begin {align} \ lim _ {h \ to 0 ^ {+}} {\ frac {1} {h}} \ int _ {x_ {j}} ^ {x_ {j} + h} f (x \ mid \ theta) \, dx = \ lim _ {h \ to 0 ^ {+}} {\ frac {{\ frac {d} {dh}} \ int _ {x_ {j}} ^ {x_ {j} + h} f (x \ mid \ theta) \, dx} {\ frac {dh} {dh}}} \\ [4pt] = {} \ lim _ {h \ to 0 ^ {+}} {\ frac {f (x_ {j} + h \ mid \ theta)} {1}} = е (Икс_ {J} \ середина \ тета). \ конец {выровненный}}}

Тогда

argmax θ ⁡ L (θ ∣ xj) = argmax θ ⁡ [lim h → 0 + L (θ ∣ x ∈ [xj, xj + h])] = argmax θ ⁡ [lim h → 0 + 1 h xjxj + hf (x θ) dx] = argmax θ ⁡ f (xj ∣ θ). {\ displaystyle {\ begin {align} \ operatorname {argmax} _ {\ theta} {\ mathcal {L}} (\ theta \ mid x_ {j}) = \ operatorname {argmax} _ {\theta} \ left [\ lim _ {h \ to 0 ^ {+}} {\ mathcal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h]) \ right] \\ [4pt ] = {} \ operatorname {argmax} _ {\ theta} \ left [\ lim _ {h \ to 0 ^ {+}} {\ frac {1} {h}} \ int _ {x_ {j}} ^ {x_ {j} + h} f (x \ mid \ theta) \, dx \ right] = \ operatorname {argmax} _ {\ theta} f (x_ {j} \ mid \ theta). \ end {выровнено}}}{\ displaystyle {\ begin {align} \ operatorname {argmax} _ {\ theta} {\ mathcal {L}} (\ theta \ mid x_ {j}) = \ operatorname {argmax} _ {\ theta} \ left [\ lim _ {h \ to 0 ^ {+}} {\ math cal {L}} (\ theta \ mid x \ in [x_ {j}, x_ {j} + h]) \ right] \\ [4pt] = {} \ operatorname {argmax} _ {\ theta} \ left [\ lim _ {h \ to 0 ^ {+}} {\ frac {1} {h}} \ int _ {x_ {j}} ^ {x_ {j} + h} f (x \ mid \ theta) \, dx \ right] = \ operatorname {argmax} _ {\ theta} f (x_ {j} \ mid \ theta). \ end {align}}}

Следовательно,

argmax θ ⁡ L (θ ∣ xj) = argmax θ ⁡ f (xj ∣ θ), {\ displaystyle \ operatorname {argmax} _ {\ theta} {\ mathcal {L}} (\ theta \ mid x_ {j}) = \ operatorname {argmax} _ {\ theta} f (x_ {j} \ mid \ theta), \!}{\ displaystyle \ operatorname {argmax} _ {\ theta} {\ mathcal {L}} (\ theta \ середина x_ {j}) = \ operatorname {argmax} _ {\ theta} f (x_ {j} \ mid \ theta), \!}

и таким образом, максимизация плотность вероятности в xj {\ displaystyle x_ {j}}x_ {j} означает максимизацию вероятности конкретного наблюдения xj {\ displaystyle x_ {j}}x_ {j} .

Вероятность смешанных непрерывно-дискретных распределений

Вышеизложенное комплексное средство, чтобы можно было рассматривать распределение, как дискретные, так и непрерывные компоненты. Предположим, что состоит из нескольких дискретных вероятностных масс pk θ {\ displaystyle p_ {k} \ theta}{\ displaystyle p_ {k} \ theta} и плотности f (x ∣ θ) {\ displaystyle f (x \ mid \ theta)}{\ displaystyle f (x \ mid \ theta)} , где сумма всех p {\ displaystyle p}p добавляется к интегралу от f {\ displaystyle f}fвсегда один. Предполагаемая, что можно отличить наблюдение, соответствует одному из дискретных масс вероятности, от наблюдения, соответствует компоненту плотности, функция правдоподобия для наблюдения непрерывного компонента может быть обработана способом, показанным выше. Для наблюдения от дискретного компонента функция правдоподобия для наблюдения от дискретного компонента

L (θ ∣ x) = pk (θ), {\ displaystyle {\ mathcal {L}} (\ theta \ mid x) = p_ {k} (\ theta), \!}\ mathcal {L} (\ theta \ середина х) знак равно п_к (\ тета), \!

где k {\ displaystyle k}k - индекс дискретной вероятностной массы, наблюдающимся x {\ displaystyle x}x , поскольку максимизация вероятностной массы (или вероятности) в x {\ displaystyle x}x сводится к максимизации вероятности конкретного наблюдения.

Тот факт, что функция правдоподобия может быть определенным образом, чтобы включить несоизмеримые вклады (плотность и вероятностная масса), возникает из-за способа, соответствующая функция правдоподобия определяется с точностью до константы пропорциональности., где эта «константа» может изменяться с помощью наблюдения x {\ displaystyle x}x , но не с параметром θ {\ displaystyle \ theta}\ theta .

Условия регулярности

В контексте описания обычно обычно, функция правдоподобия подчиняется определенным условиям, известным как регулярные условия. Эти условия предполагаются в различных доказательствах, включающих функции правдоподобия, и их необходимо проверять в каждом конкретном приложении. Для оценки правдоподобия важно наличие глобальной максимума функции правдоподобия. Согласно теореме об экстремальных значениях, непрерывной функции правдоподобия на компактном пространственных параметрах достаточно для существования оценщика максимального правдоподобия. В то время как предположение о непрерывности обычно выполняется предположение о компактности пространства параметров часто не выполняется, поскольку границы значений параметров неизвестны. В этом случае ключевую роль играет вогнутость функции правдоподобия.

Более конкретно, если функция правдоподобия постоянно непрерывно дифференцируема в k-мерном пространстве параметров Θ {\ displaystyle \ Theta}\ Theta , соответственно, что open подключенное подмножество R k {\ displaystyle \ mathbb {R} ^ {k}}{\ displaystyle \ mathbb {R} ^ {k}} , существует уникальный максимум θ ^ ∈ Θ {\ displaystyle {\ hat {\ theta}} \ in \ Theta}{\ displaystyle {\ hat {\ theta}} \ in \ Theta} , если

H (θ) = {∂ 2 L ∂ θ я ∂ θ j} {\ displaystyle \ mathbf {H} (\ theta) = \ left \ {{\ frac {\ partial ^ {2} L} {\ partial \ theta _ {i} \ partial \ theta _ {j}}} \ right \}}{\ displaystyle \ mathbf {H} (\ theta) = \ left \ {{\ frac { \ partial ^ {2} L} {\ partial \ theta _ {i} \ partial \ theta _ {j}}} \ right \}} - отрицательно определенное в каждом θ ∈ Θ {\ displaystyle \ theta \ in \ Theta}\ theta \ in \ Theta , для которого градиент ∇ L = {∂ L / ∂ θ я} {\ displaystyle \ nabla L = \ left \ {\ partial L / \ partial \ theta _ {i} \ right \}}{\ displaystyle \ nabla L = \ left \ {\ partial L / \ partial \ theta _ {i} \ right \}} исчезает, а
lim θ → ∂ Θ L (θ) = 0 {\ displaystyle \ lim _ {\ theta \ to \ partial \ Theta} L (\ theta) = 0}{\ displaystyle \ lim _ {\ theta \ to \ partial \ Theta} L (\ theta) = 0} , то есть функция правдо подобия приближается к константе на границе пространство, которое может быть бесконечно удаленные точки, если Θ {\ displaystyle \ Theta}\ Theta не ограничено.

Мякеляйнен и др. докажите этот результат, используя теорию Морса, неформально обращаясь к собственности горного перевала. Маскаренас повторяет свое доказательство, используя теорему о горном перевале.

доказательствах непротиворечивости и асимптотической нормальности оценки максимального правдоподобия делаются дополнительные предположения о плотностях вероятностей, которые составляют основу функцииможет быть получен с помощью теоремы Ролля.

Вторая производная, вычисленная как θ ^ {\ displaystyle {\ hat {\ theta}}}\hat{\theta}, известная как Fisher информация, определяет кривизну поверхности правдоподобия и, таким образом, указывает на точность оценки.

Экспоненциальные семейства

Логарифм правдоподобия также особенно полезен для экспоненциальных семейств распределений, которые включают множество из общих параметрических распределений вероятностей. Функция распределения вероятностей (и, следовательно, функция правдоподобия) для экспоненциальных семейств включает произведения факторов, включающих возведение в степень. Логарифм такой функции представляет собой сумму произведений, которую снова легче различить, чем исходную функцию.

Экспоненциальное семейство - это семейство, функция плотности вероятности которого имеет вид (для некоторых функций записи ⟨-, -⟩ {\ displaystyle \ langle -, - \ rangle}{\ displaystyle \ langle -, - \ rangle} для внутреннего продукта ):

p (x ∣ θ) = h (x) exp ⁡ (⟨η (θ), T (x)⟩ - A (θ)). {\ displaystyle p (x \ mid {\ boldsymbol {\ theta}}) = h (x) \ exp {\ Big (} \ langle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}), \ mathbf {T} (x) \ rangle -A ({\ boldsymbol {\ theta}}) {\ Big)}.}{\ displaystyle p (x \ mid {\ boldsymbol {\ theta}}) = h (x) \ exp {\ Big (} \ langle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}), \ mathbf {T} (x) \ rangle -A ({\ boldsymbol {\ theta}}) {\ Big)}.}

У каждого из этих терминов есть интерпретация, но просто переход от вероятности к правдоподобию и логарифм дает сумма:

ℓ (θ ∣ x) = ⟨η (θ), T (x)⟩ - A (θ) + log ⁡ h (x). {\ displaystyle \ ell ({\ boldsymbol {\ theta}} \ mid x) = \ langle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}), \ mathbf {T} (x) \ rangle -A ({\ boldsymbol {\ theta}}) + \ log h (x).}{\ displaystyle \ ell ({\ boldsymbol {\ theta}} \ mid x) = \ langle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta }}), \ mathbf {T} (x) \ rangle -A ({\ boldsymbol {\ theta}}) + \ log h (x).}

η (θ) {\ displaystyle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta} })}{\ displaystyle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}})} и h (x) {\ displaystyle h (x)}час (х) каждый соответствует изменению координат, поэтому в этих координатах, логарифмическая вероятность экспоненциального системе определяется простой формулой:

ℓ (η ∣ x) = ⟨η, T (x)⟩ - A (η). {\ displaystyle \ ell ({\ boldsymbol {\ eta}} \ mid x) = \ langle {\ boldsymbol {\ eta}}, \ mathbf {T} (x) \ rangle -A ({\ boldsymbol {\ eta}))}).}{ \ displaystyle \ ell ({\ boldsymbol {\ eta}} \ mid x) = \ langle {\ boldsymbol {\ eta}}, \ mathbf {T} (x) \ rangle -A ({\ boldsymbol {\ eta}}).}

На словах логарифмическая вероятность экспоненциального семейства - это внутреннее произведение натурального человека η {\ displaystyle {\ boldsymbol {\ eta}}}{\ boldsymbol {\ eta}} и достаточная статистика T (x) {\ displaystyle \ mathbf {T} (x)}\ mathbf {T} (x) , минус коэффициент нормализации (функция логарифмического разбиения ) А (η) {\ Стиль отображения А ({\ boldsymbol {\ eta}})}A ({\ boldsymbol {\ eta}}) . Так, например, оценка может быть вычислена путем анализа производных от достаточной статистики T и логарифмической функции распределения A.

Пример: гамма-распределение

гамма-распределение представляет собой экспоненциальное семейство с двумя действующими: α {\ displaystyle \ alpha}\ alpha и β {\ displaystyle \ beta}\ beta . Функция правдоподобия:

L (α, β ∣ x) = β α Γ (α) x α - 1 e - β x. {\ displaystyle {\ mathcal {L}} (\ alpha, \ beta \ mid x) = {\ frac {\ beta ^ {\ alpha}} {\ Gamma (\ alpha)}} x ^ {\ alpha -1} e ^ {- \ beta x}.}{\ displaystyle {\ mathcal {L}} (\ альфа, \ beta \ mid x) = {\ frac {\ beta ^ {\ alpha}} {\ Gamma (\ alpha)}} x ^ {\ alp ха -1} е ^ {- \ бета х}.}

Нахождение оценки правдоподобия β {\ displaystyle \ beta}\ beta для одного наблюдаемого значения x {\ displaystyle x}x выглядит довольно устрашающе. С его логарифмом работать намного проще:

log ⁡ L (α, β ∣ x) = α log ⁡ β - log ⁡ Γ (α) + (α - 1) log ⁡ x - β x. {\ displaystyle \ log {\ mathcal {L}} (\ alpha, \ beta \ mid x) = \ alpha \ log \ beta - \ log \ Gamma (\ alpha) + (\ alpha -1) \ log x- \ бета х. \,}{\ displaystyle \ log {\ mathcal {L}} (\ alpha, \ beta \ mid x) = \ alpha \ log \ beta - \ log \ Gamma (\ alpha) + ( \ alpha -1) \ log x- \ beta x. \,}

Чтобы максимизировать логарифмическую вероятность, мы сначала берем частную производную по β {\ displaystyle \ beta}\ beta :

∂ log ⁡ L (α, β ∣ x) ∂ β = а β - х. {\ displaystyle {\ frac {\ partial \ log {\ mathcal {L}} (\ alpha, \ beta \ mid x)} {\ partial \ beta}} = {\ frac {\ alpha} {\ beta}} - x.}{\ displaystyle {\ frac {\ partial \ log {\ mathcal {L}} (\ alpha, \ beta \ mid x)} { \ partial \ beta}} = {\ frac {\ alpha} {\ beta}} - x.}

Если имеется независимых наблюдений x 1,…, xn {\ displaystyle x_ {1}, \ ldots, x_ {n}}x_ {1}, \ ldots, x_ {n} , то объединенный журнал -правдоподобие будет суммой индивидуальных правдоподобий, а производная эта сумма будет суммой производной каждой логарифмической правдоподобия:

∂ log ⁡ L (α, β ∣ x 1,…, xn) ∂ β = ∂ log ⁡ L (α, β ∣ x 1) ∂ β + ⋯ + ∂ log ⁡ L (α, β ∣ xn) ∂ β = n α β - i = 1 nxi. {\ displaystyle {\ begin {align} {\ frac {\ partial \ log {\ mathcal {L}} (\ alpha, \ beta \ mid x_ {1}, \ ldots, x_ {n})} {\ partial \ beta}} \\ = {} {\ frac {\ partial \ log {\ mathcal {L}} (\ alpha, \ beta \ mid x_ {1})} {\ partial \ beta}} + \ cdots + {\ frac {\ partial \ log {\ mathcal {L}} (\ alpha, \ beta \ mid x_ {n})} {\ partial \ beta}} = {\ frac {n \ alpha} {\ beta}} - \ sum _ {i = 1} ^ {n} x_ {i}. \ end {align}}}{\ displaystyle {\ begin {align} {\ frac {\ partial \ log {\ mathcal {L}} (\ альфа, \ бета \ середина x_ {1}, \ ldots, x_ {n})} {\ partial \ beta}} \\ = {} {\ frac {\ partial \ log {\ mathcal {L}} (\ альфа, \ beta \ mid x_ {1})} {\ partial \ beta}} + \ cdots + {\ frac {\ partial \ log {\ mathc al {L}} (\ alpha, \ beta \ mid x_ {n})} {\ partial \ beta}} = {\ frac {n \ alpha} {\ beta}} - \ sum _ {i = 1} ^ {n} x_ {i}. \ end {align}}}

Чтобы завершить максимизацию для совместной логарифмической вероятности, уравнение устанавливается на ноль и решается для β {\ displaystyle \ beta}\ beta :

β ^ = α x ¯. {\ displaystyle {\ widehat {\ beta}} = {\ frac {\ alpha} {\ bar {x}}}.}{\ displaystyle {\ widehat {\ beta}} = {\ frac {\ alpha} {\ bar {x}}}.}

Здесь β ^ {\ displaystyle {\ widehat {\ beta}}}{\ displaystyle {\ widehat {\ beta}}} обозначает величину правдоподобия, а x ¯ = 1 n ∑ i = 1 nxi {\ displaystyle \ textstyle {\ bar {x}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}}{\ displaystyle \ textstyle {\ bar {x}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}} - это выборочное среднее наблюдений.

Предпосылки и интерпретация

Исторические замечания

Термин «вероятность» использовалась на английском языке, по крайней мере, с конца среднеанглийского. Его формальное использование для обозначения функций функции в математической статистике было предложено Рональдом Фишером в двух исследовательских работах, опубликованных в 1921 и 1922 годах. В статье 1921 года было введено то, что сегодня называется "правдоподобный интервал"; в статье 1922 г. был введен термин «метод максимального правдоподобия ». Цитируя Фишера:

[I] в 1922 году я использую термин «вероятность» из-за того факта, что в отношении [фактора] это не вероятность и не подчиняется законам вероятности, в то же время он имеет отношение к проблеме рационального выбора среди факторов [прогноза], аналогичное тому, которое имеет к проблеме предсказания событий в азартных играх.... »

Понятие вероятности не следует путать с вероятностью, как последнул сэр Рональд Фишер

Я подчеркиваю это, потому что, несмотря на то, что я всегда делал акцент на различии между вероятностью и правдоподобием, все еще существует тенденция относиться к вероятности как разновидности вероятности сти. Таким образом, первый результат в том, что существуют две разные меры рациональной веры, подходящие для разных случаев. Зная выборность, мы можем выразить наше неполное знание или ожидание в терминах вероятности; зная выборку, мы можем выразить наше неполное знание совокупности точки зрения правдоподобия.

Изобретение Фишера статистической правдоподобия было реакцией на более раннюю рассуждений, названную обратной вероятностью. Использование им термина «вероятность» закрепило значение этого термина в математической статистике.

А. У. Ф. Эдвардс (1972) установил аксиоматическую основу для использования логарифмических отношений правдоподобия как меры относительной поддержки одной гипотезы по сравнению с другим. Тогда функция поддержки представляет собой натуральный логарифм функции правдоподобия. Оба термина используются в филогенетике, но не были приняты в общем подходе к теме статистических данных.

Интерпретации при разных основаниях

Среди статистиков нет консенсус в основе статистики. В основе были предложены четыре основные парадигмы: частотный подход, байесовский подход, правдоподобие и основанный на AIC. Для каждого из предложенных оснований интерпретация вероятности разной. Четыре интерпретации в подразделах ниже.

Частотная интерпретация

Байесовская интерпретация

В байесовском выводе, хотя можно говорить о вероятности любого предложения или случайной величиной с учетом другая случайная величина: например, вероятность значения или статистической модели (см. предельное правдоподобие ), особенности данные или другие свидетельства, функция правдоподобия остается той же сущности, с дополнительными интерпретациями (i) условной плотности данных, заданных параметров (параметр в этом случае является случайной величиной) и (ii) меры или количества информации, приносимой данными о значении или даже модель. Из-за вероятностной структуры в пространстве или параметров в набор моделей возможно, что параметр или статистическая модель имеет большое значение правдоподобия для заданных данных, но при этом имеет низкую вероятность или наоборот. Это часто имеет место в медицине. Следуя Правилу Байеса, вероятность, рассматриваемая как условная плотность, может быть умножена на априорную вероятность плотность плотности, а нормализована, чтобы получить апостериорную вероятность. В более общем плане вероятность неизвестной величины X {\ displaystyle X}X с учетом другой неизвестной величины Y {\ displaystyle Y}Y пропорциональна вероятности Y {\ displaystyle Y}Y с учетом X {\ displaystyle X}X .

правдоподобная интерпретация

В частотной статистике функция правдоподобия сама по себе является статистикой, который суммирует одну выборку из генеральной совокупности, расчетное значение которой зависит от выбора параметров θ 1... θ p, где p - количество параметров в некоторых уже выбранных статистическая модель. Значение правдоподобия служит показателем качества для выбора используемого параметров, и набор параметров с максимальной вероятностью лучшего с учетом этих данных.

Конкретный расчет правдоподобия - это вероятность того, что ожидаемая выборка будет присвоена, приусловии, что выбранная модель и значения различных параметров θ дают точное приближение частотное распределение популяции, из которой была взята наблюдаемая выборка. С точки зрения максимальной вероятной апостериальной вероятности того, что произошло. Теорема Уилкса количественно определяет эвристическое правило, что разница в логарифме правдоподобия, генерируемого значениями параметров оценки, и логарифмом правдоподобия, генерируемых «истинными» (но неизвестными) значениями совокупности, составляет χ2.

Оценка размера правдоподобия каждой независимой выборки представляет собой отдельную оценку «истинного» набора параметров, описывающего выбранную совокупность. Последовательные оценки из числа независимых выборок вместе с «истинным» набором параметров, спрятанных где-то среди них. Разница в логарифмах правдоподобия предшествующих правдоподобия и правдоподобия соседних наборов сообщений для построения доверительной области на графике, координатами которого являются параметры θ 1... θ p. Область окружает пределы правдоподобия, и все точки (наборы параметров) в этой области отличаются по логарифмической вероятности не более чем на некоторое фиксированное значение. Распределение χ², заданное теоремой Уилкса, преобразует региональные логарифмические различия правдоподобия в «уверенность» в том, что внутри находится «истинный» набор параметров населения. Искусство выбора фиксированной разницы логарифмического правдоподобия состоит в том, чтобы сделать достоверность достаточно высокой, сохраняя при этом приемлемо малую область (узкий диапазон оценок).

По мере того, как наблюдается больше данных, вместо того, чтобы быть независимыми оценками, они могут быть объединены с предыдущими выборками для создания единой объединенной выборки, и эта большая выборка может быть для новой оценки максимального значения правдоподобия. По мере увеличения размера объединенной выборки размер области правдоподобия с той же степенью достоверности уменьшается. В конце концов, либо размер доверительной области очень близок к одной точке, либо была отобрана вся совокупность; в обоих случаях набор предполагаемых параметров по существу совпадает с набором параметров совокупности.

Интерпретация на основе AIC

В парадигме AIC вероятность интерпретируется в контексте теории информации.

См.

Примечания

Ссылки

Дополнительная литература

Внешние ссылки

Поищите likelihood в Wiktionary, бесплатном словаре.
Последняя правка сделана 2021-05-27 09:32:18
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте