Эмпирический метод Байеса

редактировать
Метод байесовского статистического вывода, в котором априорное распределение оценивается на основе данных

Эмпирические методы Байеса являются процедурами для статистический вывод, в котором предварительное распределение оценивается на основе данных. Этот подход отличается от стандартных байесовских методов, для которых априорное распределение фиксируется до того, как будут обнаружены какие-либо данные. Несмотря на эту разницу во взглядах, эмпирический байесовский метод можно рассматривать как приближение к полностью байесовской трактовке иерархической модели , в которой параметры на самом высоком уровне иерархии устанавливаются на их наиболее вероятные значения, а не интегрирован. Эмпирический байесовский метод, также известный как максимальное предельное правдоподобие, представляет собой один из подходов к установке гиперпараметров.

Содержание

  • 1 Введение
  • 2 Точечная оценка
    • 2.1 Метод Роббинса: непараметрический эмпирический байесовский (NPEB)
    • 2.2 Параметрический эмпирический байесовский
      • 2.2.1 Пуассоновская гамма-модель
  • 3 См. также
  • 4 Ссылки
  • 5 Дополнительная литература
  • 6 Внешние ссылки

Введение

Эмпирические байесовские методы можно рассматривать как приближение к полностью байесовской трактовке иерархической байесовской модели.

, например, в двухступенчатой ​​иерархической байесовской модели наблюдаемые данные y = Предполагается, что {y 1, y 2,…, yn} {\ displaystyle y = \ {y_ {1}, y_ {2}, \ dots, y_ {n} \}}y = \ {y_1, y_2, \ dots, y_n \} генерируются из ненаблюдаемый набор параметров θ = {θ 1, θ 2,…, θ n} {\ displaystyle \ theta = \ {\ theta _ {1}, \ theta _ {2}, \ dots, \ theta _ {n} \}}\ theta = \ {\ theta_1, \ theta_2, \ dots, \ theta_n \} согласно распределению вероятностей p (y ∣ θ) {\ displaystyle p (y \ mid \ theta) \,}{\ displaystyle p (y \ mid \ theta) \,} . В свою очередь, параметры θ {\ displaystyle \ theta}\ theta можно рассматривать как выборки, взятые из совокупности, характеризующейся гиперпараметрами η {\ displaystyle \ eta \,}\ eta \, согласно распределению вероятностей p (θ ∣ η) {\ displaystyle p (\ theta \ mid \ eta) \,}{\ displaystyle p (\ theta \ mid \ eta) \,} . В иерархической байесовской модели, хотя и не в эмпирическом байесовском приближении, гиперпараметры η {\ displaystyle \ eta \,}\ eta \, считаются взятыми из непараметризованного распределения p (η) {\ displaystyle p (\ eta) \,}p (\ eta) \, .

Таким образом, информация об определенном интересующем количестве θ i {\ displaystyle \ theta _ {i} \;}\ theta_i \; поступает не только из свойства тех данных, которые напрямую зависят от них, а также свойства совокупности параметров θ {\ displaystyle \ theta \;}\ theta \; в целом, выведенные из данных в целом, резюмируемые гиперпараметрами η {\ displaystyle \ eta \;}\ eta \; .

Используя теорему Байеса,

p (θ ∣ y) = p (y ∣ θ) p (θ) p (y) = p (y ∣ θ) p (y) ∫ p (θ ∣ η) p (η) d η. {\ Displaystyle п (\ тета \ середина у) = {\ гидроразрыва {п (у \ середина \ тета) р (\ тета)} {р (у)}} = {\ гидроразрыва {р (у \ середина \ тета) } {p (y)}} \ int p (\ theta \ mid \ eta) p (\ eta) \, d \ eta \,.}{\ Displaystyle п (\ тета \ середина у) = {\ гидроразрыва {п (у \ середина \ тета) р (\ тета)} {р (у)}} = {\ гидроразрыва {р (у \ середина \ тета) } {p (y)}} \ int p (\ theta \ mid \ eta) p (\ eta) \, d \ eta \,.}

В общем, этот интеграл не поддается анализу аналитически или символически и должны вычисляться числовыми методами. Могут использоваться стохастические (случайные) или детерминированные приближения. Примерами стохастических методов являются выборка цепи Маркова Монте-Карло и Монте-Карло. Детерминированные приближения обсуждаются в квадратуре.

В качестве альтернативы выражение может быть записано как

p (θ ∣ y) = ∫ p (θ ∣ η, y) p (η ∣ y) d η = ∫ p (Y ∣ θ) п (θ ∣ η) п (Y ∣ η) п (η ∣ Y) d η, {\ Displaystyle p (\ theta \ mid y) = \ int p (\ theta \ mid \ eta, y) p (\ eta \ mid y) \; d \ eta = \ int {\ frac {p (y \ mid \ theta) p (\ theta \ mid \ eta)} {p (y \ mid \ eta)}} p (\ eta \ mid y) \; d \ eta \,,}{\ displaystyle p (\ theta \ mid y) = \ int p (\ theta \ mid \ eta, y) p (\ eta \ mid y) \; d \ eta = \ int {\ frac {p (y \ mid \ theta) p (\ theta \ mid \ eta)} {p (y \ mid \ eta)}} p (\ eta \ mid y) \; d \ eta \,,}

, а член интеграла, в свою очередь, может быть выражен как

p (η ∣ y) = ∫ p (η ∣ θ) p (θ ∣ y) d θ. {\ displaystyle p (\ eta \ mid y) = \ int p (\ eta \ mid \ theta) p (\ theta \ mid y) \; d \ theta.}{\ displaystyle p (\ eta \ mid y) = \ int p ( \ eta \ mid \ theta) p (\ theta \ mid y) \; d \ theta.}

Они предлагают итеративную схему, качественно аналогичную структура в семплер Гиббса, чтобы последовательно развивать улучшенные приближения к p (θ ∣ y) {\ displaystyle p (\ theta \ mid y) \;}{\ displaystyle p (\ theta \ mid y) \;} и п (η ∣ Y) {\ Displaystyle р (\ eta \ mid y) \;}{\ displaystyl ep (\ eta \ mid y) \;} . Сначала вычислите начальное приближение к p (θ ∣ y) {\ displaystyle p (\ theta \ mid y) \;}{\ displaystyle p (\ theta \ mid y) \;} без учета η {\ displaystyle \ eta}\ eta зависимость полностью; затем вычислите приближение к p (η ∣ y) {\ displaystyle p (\ eta \ mid y) \;}{\ displaystyl ep (\ eta \ mid y) \;} на основе начального приблизительного распределения p (θ ∣ y) {\ Displaystyle р (\ тета \ середина у) \;}{\ displaystyle p (\ theta \ mid y) \;} ; затем используйте этот p (η ∣ y) {\ displaystyle p (\ eta \ mid y) \;}{\ displaystyl ep (\ eta \ mid y) \;} , чтобы обновить приближение для p (θ ∣ y) {\ displaystyle p (\ theta \ mid y) \;}{\ displaystyle p (\ theta \ mid y) \;} ; затем обновить p (η ∣ y) {\ displaystyle p (\ eta \ mid y) \;}{\ displaystyl ep (\ eta \ mid y) \;} ; и так далее.

Когда истинное распределение p (η ∣ y) {\ displaystyle p (\ eta \ mid y) \;}{\ displaystyl ep (\ eta \ mid y) \;} резко достигает пика, интеграл, определяющий p (θ ∣ Y) {\ displaystyle p (\ theta \ mid y) \;}{\ displaystyle p (\ theta \ mid y) \;} можно не сильно изменить, заменив распределение вероятностей на η {\ displaystyle \ eta \;}\ eta \; с точечной оценкой η ∗ {\ displaystyle \ eta ^ {*} \;}\ eta ^ {*} \; , представляющей пик распределения (или, альтернативно, его среднее значение),

p (θ ∣ y) ≃ p (y ∣ θ) p (θ ∣ η ∗) p (y ∣ η ∗). {\ Displaystyle п (\ тета \ мид у) \ симек {\ ​​гидроразрыва {п (у \ мид \ тета) \; п (\ тета \ мид \ эта ^ {*})} {п (у \ мид \ эта ^ {*})}} \,.}{\ displaystyle p (\ theta \ mid y) \ simeq {\ frac {p (y \ mid \ theta) \; p (\ theta \ mid \ eta ^ {*})} {p (y \ mid \ eta ^ {*})}} \,.}

При таком приближении вышеупомянутая итерационная схема становится EM-алгоритмом.

Термин «эмпирический байесовский» может охватывать широкий спектр методов, но большинство из них можно рассматривать как раннее усечение вышеупомянутой схемы или что-то в этом роде. Точечные оценки, а не все распределение, обычно используются для параметра (ов) η {\ displaystyle \ eta \;}\ eta \; . Оценки для η ∗ {\ displaystyle \ eta ^ {*} \;}\ eta ^ {*} \; обычно делаются из первого приближения к p (θ ∣ y) {\ displaystyle p (\ theta \ mid y) \;}{\ displaystyle p (\ theta \ mid y) \;} без последующего уточнения. Эти оценки для η ∗ {\ displaystyle \ eta ^ {*} \;}\ eta ^ {*} \; обычно делаются без учета соответствующего априорного распределения для η {\ displaystyle \ eta}\ eta .

Point оценка

метод Роббинса: непараметрический эмпирический байесовский (NPEB)

Роббинс рассмотрел случай выборки из смешанного распределения, где вероятность для каждого yi { \ displaystyle y_ {i}}y_ {i} (при условии θ i {\ displaystyle \ theta _ {i}}\ theta _ {i} ) задается распределением Пуассона,

p (yi ∣ θ i) знак равно θ iyie - θ iyi! {\ displaystyle p (y_ {i} \ mid \ theta _ {i}) = {{\ theta _ {i}} ^ {y_ {i}} e ^ {- \ theta _ {i}} \ over {y_ {i}}!}}{\ displaystyle p (y_ {i} \ mid \ theta _ {i}) = {{\ theta _ {i}} ^ {y_ {i}} e ^ {- \ theta _ {i}} \ over {y_ {i}} !}}

, в то время как предыдущее значение θ не указано, за исключением того, что оно также является iid из неизвестного распределения с кумулятивной функцией распределения G (θ) {\ Displaystyle G (\ theta)}G (\ theta) . Отбор образцов соединений возникает при решении множества задач статистической оценки, таких как количество несчастных случаев и клинические испытания. Мы просто ищем точечный прогноз θ i {\ displaystyle \ theta _ {i}}\ theta _ {i} с учетом всех наблюдаемых данных. Поскольку априор не определен, мы стремимся сделать это без знания G.

При квадратичной потере ошибки (SEL), условное ожидание E (θ i | Y i = y i) - разумная величина для использования в прогнозировании. Для модели составной выборки Пуассона эта величина равна

E ⁡ (θ i ∣ yi) = ∫ (θ yi + 1 e - θ / yi!) D G (θ) ∫ (θ yie - θ / yi!) d G (θ). {\ displaystyle \ operatorname {E} (\ theta _ {i} \ mid y_ {i}) = {\ int (\ theta ^ {y_ {i} +1} e ^ {- \ theta} / {y_ {i }}!) \, dG (\ theta) \ over {\ int (\ theta ^ {y_ {i}} e ^ {- \ theta} / {y_ {i}}!) \, dG (\ theta}) }.}{\ displaystyle \ operatorname {E} (\ theta _ {i} \ mid y_ {i}) = {\ int (\ theta ^ {y_ {i} +1} e ^ {- \ theta} / {y_ {i}}!) \, dG (\ theta) \ over {\ int (\ theta ^ {y_ {i}) } e ^ {- \ theta} / {y_ {i}}!) \, dG (\ theta})}.}

Это можно упростить, умножив выражение на (yi + 1) / (yi + 1) {\ displaystyle ({y_ {i}} + 1) / ({y_ {i}} +1)}({y_i} +1) / ({y_i } +1) , что дает

E ⁡ (θ i ∣ yi) = (yi + 1) p G (yi + 1) p G (yi), {\ displaystyle \ operatorname {E} (\ theta _ {i} \ mid y_ {i}) = {{(y_ {i} +1) p_ {G} (y_ {i} +1)} \ over {p_ {G} (y_ {i})}},}{\ displaystyle \ operatorname {E} (\ theta _ {i } \ mid y_ {i}) = {{(y_ {i} +1) p_ {G} (y_ {i} +1)} \ over {p_ {G} (y_ {i})}},}

где p G - это предельное распределение, полученное интегрированием θ по G.

Чтобы воспользоваться этим, Роббинс предложил оценивать маргинальные значения с их эмпирическими частотами, что дает полностью непараметрическую оценку как:

E ⁡ (θ i ∣ yi) ≈ (yi + 1) # {Y j = yi + 1} # {Y j = yi}, {\ displaystyle \ operatorname { E} (\ theta _ {i} \ mid y_ {i}) \ приблизительно (y_ {i} +1) {{\ # \ {Y_ {j} = y_ {i} +1 \}} \ over {\ # \ {Y_ {j} = y_ {i} \}}},}{\ displaystyle \ operatorname {E} (\ theta _ {i} \ mid y_ {i}) \ приблизительно (y_ {i} + 1) {{\ # \ {Y_ {j} = y_ {i} +1 \}} \ over {\ # \ {Y_ {j} = y_ {i} \}}},}

где # {\ displaystyle \ #}\ # означает «количество». (См. Также Оценка частоты Гуда – Тьюринга.)

Пример - Уровни несчастных случаев

Предположим, что каждый клиент страховой компании имеет «уровень несчастных случаев» Θ и застрахован от несчастных случаев; распределение вероятностей является основным распределением и неизвестно. Количество несчастных случаев, понесенных каждым клиентом за указанный период времени, имеет распределение Пуассона с ожидаемым значением, равным частоте несчастных случаев конкретного клиента. Фактическое количество несчастных случаев, пережитых клиентом, - это наблюдаемое количество. Грубый способ оценить основное распределение вероятности частоты несчастных случаев Θ состоит в том, чтобы оценить долю членов всего населения, пострадавших от 0, 1, 2, 3,... несчастных случаев в течение указанного периода времени, как соответствующую долю в наблюдаемом случайный пример. После этого желательно предсказать уровень аварийности каждого покупателя в выборке. Как указано выше, можно использовать условное ожидаемое значение частоты несчастных случаев Θ с учетом наблюдаемого количества аварий в течение базового периода. Таким образом, если клиент терпит шесть несчастных случаев в течение базового периода, оценочная частота несчастных случаев этого клиента составляет 7 × [доля выборки, пострадавшая от семи несчастных случаев] / [доля выборки, пострадавшая от шести несчастных случаев]. Обратите внимание: если доля людей, пострадавших от k несчастных случаев, является убывающей функцией от k, прогнозируемая частота несчастных случаев клиентом часто будет ниже, чем наблюдаемое количество несчастных случаев.

Этот эффект усадки типичен для эмпирического байесовского анализа.

Параметрический эмпирический байесовский

Если вероятность и ее априор принимают простые параметрические формы (например, 1- или 2-мерные функции правдоподобия с простыми сопряженными априорными числами ), то эмпирическая проблема Байеса состоит только в оценке маргинального m (y ∣ η) {\ displaystyle m (y \ mid \ eta)}{\ displaystyle m (y \ mid \ eta)} и гиперпараметров η {\ displaystyle \ eta}\ eta с использованием полного набора эмпирических измерений. Например, один из распространенных подходов, называемых параметрической эмпирической оценкой байесовской точки, заключается в аппроксимации предельного значения с использованием оценки максимального правдоподобия (MLE) или расширения Moments, которое позволяет выразить гиперпараметры η {\ displaystyle \ eta}\ eta в терминах эмпирического среднего и дисперсии. Этот упрощенный маржинальный показатель позволяет включать эмпирические средние значения в точечную оценку для предшествующего θ {\ displaystyle \ theta}\ theta . Результирующее уравнение для предыдущего θ {\ displaystyle \ theta}\ theta значительно упрощено, как показано ниже.

Существует несколько общих параметрических эмпирических байесовских моделей, включая (ниже), бета-биномиальную модель, полиномиальную модель Дирихле, а также специфические модели для байесовской линейной регрессии (см. ниже) и байесовской многомерной линейной регрессии. Более продвинутые подходы включают иерархические байесовские модели и.

Гамма-модель Пуассона

Например, в приведенном выше примере, пусть вероятность будет распределением Пуассона, и пусть априор теперь будет определяться с помощью сопряжение предшествующего, которое представляет собой гамма-распределение (G (α, β) {\ displaystyle G (\ alpha, \ beta)}G (\ alpha, \ beta) ) (где η знак равно (α, β) {\ displaystyle \ eta = (\ alpha, \ beta)}\ eta = (\ alpha, \ beta) ):

ρ (θ ∣ α, β) = θ α - 1 e - θ / β β α Γ (α) при θ>0, α>0, β>0. {\ displaystyle \ rho (\ theta \ mid \ alpha, \ beta) = {\ frac {\ theta ^ {\ alpha -1} \, e ^ {- \ theta / \ beta}} {\ beta ^ {\ alpha } \ Gamma (\ alpha)}} \ \ mathrm {for} \ \ theta>0, \ alpha>0, \ beta>0 \, \ !.}{\displaystyle \rho (\theta \mid \alpha,\beta)={\frac {\theta ^{\alpha -1}\,e^{-\theta /\beta }}{\beta ^{\alpha }\Gamma (\alpha)}}\ \mathrm {for} \ \theta>0, \ alpha>0, \ beta>0 \, \ !.}

Несложно показать, что апостериорное также является гамма-распределением. Запишите

ρ (θ ∣ y) ∝ ρ (y ∣ θ) ρ (θ ∣ α, β), {\ displaystyle \ rho (\ theta \ mid y) \ propto \ rho (y \ mid \ theta) \ rho (\ theta \ mid \ alpha, \ beta),}{\ displaystyle \ rho (\ theta \ mid y) \ propto \ rho (y \ mid \ theta) \ rho (\ theta \ mid \ alpha, \ beta),}

где маргинальное распределение было опущено, так как оно не явно зависят от θ {\ displaystyle \ theta}\ theta . Расширение терминов, которые действительно зависят от θ {\ displaystyle \ theta}\ theta , дает апостериорное значение как:

ρ (θ ∣ Y) ∝ (θ ye - θ) (θ α - 1 е - θ / β) = θ y + α - 1 e - θ (1 + 1 / β), {\ displaystyle \ rho (\ theta \ mid y) \ propto (\ theta ^ {y} \, e ^ {- \ th eta}) (\ theta ^ {\ alpha -1} \, e ^ {- \ theta / \ beta}) = \ theta ^ {y + \ alpha -1} \, e ^ {- \ theta (1 + 1 / \ beta)}.}{\ displaystyle \ rho (\ theta \ mid y) \ propto ( \ theta ^ {y} \, e ^ {- \ theta}) (\ theta ^ {\ alpha -1} \, e ^ {- \ theta / \ beta}) = \ theta ^ {y + \ alpha -1} \, e ^ {- \ theta (1 + 1 / \ beta)}.}

Таким образом, апостериорная плотность также является гамма-распределением G (α ′, β ′) {\ displaystyle G (\ alpha ', \ beta')}G(\alpha',\beta'), где α ′ = y + α {\ displaystyle \ alpha '= y + \ alpha}\alpha' = y + \alpha, и β ′ = (1 + 1 / β) - 1. {\ displaystyle \ beta '= (1 + 1 / \ beta) ^ {- 1}}\beta' = (1+1 / \beta)^{-1}. Также обратите внимание, что маргинальное значение - это просто интеграл апостериорного значения по всем Θ {\ displaystyle \ Theta}\ Theta , что оказывается отрицательным биномиальным распределением.

Чтобы применить эмпирическое байесовское распределение, мы аппроксимируем маржинальное значение, используя оценку максимального правдоподобия (MLE). Но поскольку апостериорное распределение является гамма-распределением, MLE маргинального значения оказывается просто средним апостериорным, то есть точечной оценкой E ⁡ (θ ∣ y) {\ displaystyle \ operatorname {E} (\ theta \ mid y)}{\ displaystyle \ operatorname {E} (\ theta \ mid y)} нам нужно. Напоминая, что среднее μ {\ displaystyle \ mu}\ mu гамма-распределения G (α ′, β ′) {\ displaystyle G (\ alpha ', \ beta')}G(\alpha', \beta')это просто α ′ β ′ {\ displaystyle \ alpha '\ beta'}\alpha' \beta', мы имеем

E ⁡ (θ ∣ y) = α ′ β ′ = y ¯ + α 1 + 1 / β = β 1 + β y ¯ + 1 1 + β (α β). {\ displaystyle \ operatorname {E} (\ theta \ mid y) = \ alpha '\ beta' = {\ frac {{\ bar {y}} + \ alpha} {1 + 1 / \ beta}} = {\ frac {\ beta} {1+ \ beta}} {\ bar {y}} + {\ frac {1} {1+ \ beta}} (\ alpha \ beta).}{\displaystyle \operatorname {E} (\theta \mid y)=\alpha '\beta '={\frac {{\bar {y}}+\alpha }{1+1/\beta }}={\frac {\beta }{1+\beta }}{\bar {y}}+{\frac {1}{1+\beta }}(\alpha \beta).}

Чтобы получить значения α {\ displaystyle \ alpha}\ alpha и β {\ displaystyle \ beta}\ beta , эмпирический байесовский метод предписывает оценку среднего α β {\ displaystyle \ alpha \ beta }\ alpha \ бета и дисперсия α β 2 {\ displaystyle \ alpha \ beta ^ {2}}\alpha\beta^2с использованием полного набора эмпирических данных.

Таким образом, итоговая точечная оценка E ⁡ (θ ∣ y) {\ displaystyle \ operatorname {E} (\ theta \ mid y)}{\ displaystyle \ operatorname {E} (\ theta \ mid y)} похожа на средневзвешенное значение выборочное среднее y ¯ {\ displaystyle {\ bar {y}}}{\ bar {y}} и априорное среднее μ = α β {\ displaystyle \ mu = \ alpha \ beta}\ му = \ альфа \ бета . Оказывается, это общая черта эмпирического Байеса; Точечные оценки для априорной (то есть среднего) будут выглядеть как средневзвешенные значения выборочной оценки и априорной оценки (аналогично для оценок дисперсии).

См. Также

Ссылки

Дополнительная литература

Внешние ссылки

Последняя правка сделана 2021-05-19 09:42:23
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте