Байесовское иерархическое моделирование

редактировать

Байесовское иерархическое моделирование - это статистическая модель, написанная на нескольких уровнях (иерархическая форма), которая оценивает параметры апостериорного распределения с использованием байесовского метода. Подмодели объединяются, образуя иерархическую модель, и теорема Байеса используется для их интеграции с наблюдаемыми данными и учета всей присутствующей неопределенности. Результатом этого интегрирования является апостериорное распределение, также известное как обновленная оценка вероятности, поскольку получают дополнительные свидетельства о предшествующем распределении.

Частотная статистика может давать заключения, кажущиеся несовместимыми с выводами, предлагаемыми байесовской статистикой, из-за байесовского подхода к параметрам как случайных величин и использования субъективной информации при установлении допущений по этим параметрам. Поскольку подходы отвечают на разные вопросы, формальные результаты не являются технически противоречивыми, но два подхода расходятся во мнениях относительно того, какой ответ актуален для конкретных приложений. Байесовцы утверждают, что нельзя игнорировать релевантную информацию, касающуюся принятия решений и обновления убеждений, и что иерархическое моделирование может отменить классические методы в приложениях, где респонденты предоставляют несколько данных наблюдений. Более того, модель оказалась надежной, причем апостериорное распределение менее чувствительно к более гибким иерархическим априорным значениям.

Иерархическое моделирование используется, когда информация доступна на нескольких разных уровнях единиц наблюдения. Иерархическая форма анализа и организации помогает в понимании многопараметрических задач, а также играет важную роль в разработке вычислительных стратегий.

Содержание
  • 1 Философия
  • 2 Теорема Байеса
  • 3 Возможность обмена
    • 3.1 Конечная взаимозаменяемость
    • 3.2 Бесконечная взаимозаменяемость
  • 4 Иерархические модели
    • 4.1 Компоненты
    • 4.2 Структура
    • 4.3 Пример
    • 4.4 Двухступенчатая иерархическая модель
    • 4.5 Трехступенчатая иерархическая модель
  • 5 Ссылки
Философия

Статистические методы и модели обычно включают несколько параметров, которые можно рассматривать как связанные или связанные таким образом, что проблема подразумевает зависимость совместной вероятностной модели для этих параметров. Индивидуальные степени веры, выраженные в форме вероятностей, сопровождаются неопределенностью. При этом степень веры меняется с течением времени. Как было заявлено профессором Хосе М. Бернардо и профессором Адрианом Ф. Смитом : «Актуальность процесса обучения заключается в эволюции индивидуальных и субъективных представлений о реальности». Эти субъективные вероятности более непосредственно связаны с умом, чем с физическими вероятностями. Следовательно, именно с этой необходимостью обновления убеждений байесовцы сформулировали альтернативную статистическую модель, которая учитывает предшествующее наступление конкретного события.

Теорема Байеса

Предполагаемое возникновение определенного события реальное событие обычно изменяет предпочтения между определенными параметрами. Это делается путем изменения степени убежденности, которую человек связывает с событиями, определяющими варианты.

Предположим, что при исследовании эффективности кардиологического лечения пациенты в больнице имеют вероятность выживания θ j {\ displaystyle \ theta _ {j}}\ theta _ {j} , вероятность выживания будет обновляться с появлением y, события, при котором создается сомнительная сыворотка, которая, по мнению некоторых, увеличивает выживаемость у кардиологических больных.

Чтобы сделать обновленные утверждения вероятности для θ j {\ displaystyle \ theta _ {j}}\ theta _ {j} , учитывая наступление события y, мы должны начать с модели, обеспечивающей совместное распределение вероятностей для θ j {\ displaystyle \ theta _ {j}}\ theta _ {j} и y. Это можно записать как произведение двух распределений, которые часто называют априорным распределением P (θ) {\ displaystyle P (\ theta)}P (\ theta) и выборочным распределением P (y ∣ θ) {\ displaystyle P (y \ mid \ theta)}P (y \ mid \ theta) соответственно:

P (θ, y) = P (θ) P (y ∣ θ) {\ displaystyle P (\ theta, y) = P (\ theta) P (y \ mid \ theta)}P (\ theta, y) = P (\ theta) P (y \ mid \ theta)

Используя основное свойство условной вероятности, апостериорное распределение даст:

п (θ ∣ Y) знак равно п (θ, y) P (y) = P (y ∣ θ) P (θ) P (y) {\ displaystyle P (\ theta \ mid y) = {\ frac { P (\ theta, y)} {P (y)}} = {\ frac {P (y \ mid \ theta) P (\ theta)} {P (y)}}}P (\ theta \ mid y) = {\ frac {P (\ theta, y)} {P (y)}} = {\ frac {P (y \ mid \ theta) P (\ theta)} {P (y)}}

Это уравнение, показывающее Связь между условной вероятностью и отдельными событиями известна как теорема Байеса. Это простое выражение инкапсулирует техническое ядро ​​байесовского вывода, цель которого - включить обновленное убеждение, P (θ ∣ y) {\ displaystyle P (\ theta \ mid y)}P (\ theta \ mid y) , в подходящем и решаемом

Возможность обмена

Обычной отправной точкой статистического анализа является предположение, что n значений y 1, y 2,…, yn {\ displaystyle y_ {1}, y_ {2}, \ ldots, y_ {n}}y_ {1}, y_ {2}, \ ldots, y_ {n} можно заменять. Если нет никакой информации, кроме данных y, чтобы отличить любой из θ j {\ displaystyle \ theta _ {j}}\ theta _ {j} от любых других, а также отсутствие упорядочивания или группировки параметры могут быть заданы, необходимо предположить симметрию между параметрами в их предварительном распределении. Эта симметрия вероятностно представлена ​​взаимозаменяемостью. Как правило, полезно и целесообразно моделировать данные из заменяемого распределения как независимо и одинаково распределенные, учитывая некоторый неизвестный вектор параметров θ {\ displaystyle \ theta}\ theta , с распределением P (θ) {\ displaystyle P (\ theta)}P (\ theta) .

Конечная заменяемость

Для фиксированного числа n множество y 1, y 2,…, yn {\ displaystyle y_ {1}, y_ {2}, \ ldots, y_ {n}}y_ {1}, y_ {2}, \ ldots, y_ {n} можно обменивать, если совместная вероятность P (y 1, y 2,…, yn) {\ displaystyle P ( y_ {1}, y_ {2}, \ ldots, y_ {n})}P (y_ {1}, y_ {2}, \ ldots, y_ {n}) инвариантно относительно перестановок индексов. То есть для каждой перестановки π {\ displaystyle \ pi}\ pi или (π 1, π 2,…, π n) {\ displaystyle (\ pi _ {1}, \ pi _ {2}, \ ldots, \ pi _ {n})}(\ pi _ {1}, \ pi _ {2}, \ ldots, \ pi _ {n}) из (1, 2,…, n), P (y 1, y 2,…, yn) = P (y π 1, y π 2,…, y π n). {\ Displaystyle P (y_ {1}, y_ {2}, \ ldots, y_ {n}) = P (y _ {\ pi _ {1}}, y _ {\ pi _ {2}}, \ ldots, y_ {\ pi _ {n}}).}P (y_ {1}, y_ {2}, \ ldots, y_ {n}) = P (y _ {{\ pi _ {1}}}, y _ {{\ pi _ {2}}}, \ ldots, y _ {{\ pi _ { n}}}).

Ниже приводится заменяемый, но не независимый и идентичный (iid) пример: Рассмотрим урну с красным и синим шарами внутри, с вероятностью 1 2 {\ displaystyle {\ frac {1} {2}}}{\ frac {1} {2}} рисунка. Шары тянутся без замены, т.е. после того, как из n шаров будет вытянут один шар, останется n - 1 шаров для следующего розыгрыша.

Пусть Y i = {1, если i-й шар красный, 0 в противном случае. {\ displaystyle {\ text {Let}} Y_ {i} = {\ begin {cases} 1, {\ text {если}} i {\ text {th шар красный}}, \\ 0, { \ text {else}}. \ end {ases}}}{\ text {Пусть }} Y_ {i} = {\ begin {cases} 1, {\ text {, если}} i {\ text {ый шар красный}}, \\ 0, {\ text {в противном случае}}. \ end {case}}

Поскольку вероятность выбора красного шара при первом розыгрыше и синего шара при втором розыгрыше равна вероятности выбора синего шара при первом розыгрыше ничья и красный цвет во второй розыгрыше, оба из которых равны 1/2 (т.е. [P (y 1 = 1, y 2 = 0) = P (y 1 = 0, y 2 = 1) = 1 2] {\ displaystyle [P (y_ {1} = 1, y_ {2} = 0) = P (y_ {1} = 0, y_ {2} = 1) = {\ frac {1} {2} }]}[P (y_ {1} = 1, y_ {2} = 0) = P (y_ {1} Знак равно 0, y_ {2} = 1) = {\ frac {1} {2}}] ), затем y 1 {\ displaystyle y_ {1}}y_{1}и y 2 {\ displaystyle y_ {2}}y_ {2} можно обменять.

Но вероятность выбора красного шара при втором розыгрыше, учитывая, что красный шар уже был выбран в первом розыгрыше, равна 0, и не равна вероятности того, что красный шар будет выбран во втором розыгрыше. нарисовать что равно 1/2 (т.е. [P (y 2 = 1 ∣ y 1 = 1) = 0 ≠ P (y 2 = 1) = 1 2] {\ displaystyle [P (y_ {2}} = 1 \ mid y_ {1} = 1) = 0 \ neq P (y_ {2} = 1) = {\ frac {1} {2}}]}[P (y_2 = 1 \ mid y_1 = 1) = 0 \ ne P (y_2 = 1) = \ frac {1} {2}] ). Таким образом, y 1 {\ displaystyle y_ {1}}y_{1}и y 2 {\ displaystyle y_ {2}}y_ {2} не являются независимыми.

Если x 1,…, xn {\ displaystyle x_ {1}, \ ldots, x_ {n}}x_ {1}, \ ldots, x_ {n} независимы и одинаково распределены, то они взаимозаменяемы, но обратное не обязательно верно.

Бесконечная возможность замены

Бесконечная возможность замены - это свойство, при котором каждое конечное подмножество бесконечной последовательности y 1 {\ displaystyle y_ {1}}y_{1}, y 2,… {\ displaystyle y_ {2}, \ ldots}y_ {2}, \ ldots можно заменять. То есть для любого n последовательность y 1, y 2,…, yn {\ displaystyle y_ {1}, y_ {2}, \ ldots, y_ {n}}y_ {1}, y_ {2}, \ ldots, y_ {n} заменяема.

Иерархические модели

Компоненты

Байесовское иерархическое моделирование использует две важные концепции при выводе апостериорного распределения, а именно:

  1. Гиперпараметры : параметры априорное распределение
  2. Гиперприоры : распределения гиперпараметров

Предположим, что случайная величина Y следует нормальному распределению с параметром θ как среднее и 1 как дисперсия, что равно Y ∣ θ ∼ N (θ, 1) {\ displaystyle Y \ mid \ theta \ sim N (\ theta, 1)}Y \ mid \ theta \ sim N (\ theta, 1) . Отношение тильды ∼ {\ displaystyle \ sim}\ sim можно читать как «имеет распределение» или «распространяется как». Предположим также, что параметр θ {\ displaystyle \ theta}\ theta имеет распределение, заданное нормальным распределением со средним значением μ {\ displaystyle \ mu}\ mu и дисперсия 1, то есть θ ∣ μ ∼ N (μ, 1) {\ displaystyle \ theta \ mid \ mu \ sim N (\ mu, 1)}\ theta \ mid \ mu \ sim N (\ mu, 1) . Кроме того, μ {\ displaystyle \ mu}\ mu следует другому распределению, заданному, например, стандартным нормальным распределением, N (0, 1) {\ displaystyle {\ text {N}} (0,1)}{\ text {N}} (0,1) . Параметр μ {\ displaystyle \ mu}\ mu называется гиперпараметром, а его распределение определяется как N (0, 1) {\ displaystyle {\ text {N}} (0, 1)}{\ text {N}} (0,1) - пример гиперприорного распределения. Обозначение распределения Y изменяется при добавлении другого параметра, то есть Y ∣ θ, μ ∼ N (θ, 1) {\ displaystyle Y \ mid \ theta, \ mu \ sim N (\ theta, 1) }Y \ mid \ theta, \ mu \ sim N (\ theta, 1) . Если есть другой этап, скажем, μ {\ displaystyle \ mu}\ mu следует другому нормальному распределению со средним значением β {\ displaystyle \ beta}\ beta и дисперсией ϵ {\ displaystyle \ epsilon}\ epsilon , что означает μ ∼ N (β, ϵ) {\ displaystyle \ mu \ sim N (\ beta, \ epsilon)}\ mu \ sim N (\ beta, \ epsilon) , {\ displaystyle { \ t_dv {}}}{\ t_dv {}} β {\ displaystyle \ beta}\ beta и ϵ {\ displaystyle \ epsilon}\ epsilon также могут называться гиперпараметрами, в то время как их распределения являются гиперприорными. также.

Framework

Пусть yj {\ displaystyle y_ {j}}y_ {j} будет наблюдением, а θ j {\ displaystyle \ theta _ {j}}\ theta _ {j} параметр, управляющий процессом генерации данных для yj {\ displaystyle y_ {j}}y_ {j} . Далее предположим, что параметры θ 1, θ 2,…, θ j {\ displaystyle \ theta _ {1}, \ theta _ {2}, \ ldots, \ theta _ {j}}\ theta _ {1}, \ theta _ {2}, \ ldots, \ theta _ {j} генерируются обменно из общей популяции, с распределением, регулируемым гиперпараметром ϕ {\ displaystyle \ phi}\ phi .. Байесовская иерархическая модель содержит следующие этапы:

Этап I: yj ∣ θ j, ϕ ∼ P (yj ∣ θ j, ϕ) {\ displaystyle {\ text {Stage I:}} y_ {j} \ mid \ theta _ {j}, \ phi \ sim P (y_ {j} \ mid \ theta _ { j}, \ phi)}{\ text {Этап I:}} y_ {j} \ mid \ theta _ {j}, \ phi \ sim P (y_ {j} \ mid \ theta _ {j}, \ phi)
Этап II: θ j ∣ ϕ ∼ P (θ j ∣ ϕ) {\ displaystyle {\ text {Stage II:}} \ theta _ {j} \ mid \ phi \ sim P (\ theta _ {j} \ mid \ phi)}{\ text {Стадия II:}} \ theta _ {j} \ mid \ phi \ sim P (\ theta _ {j} \ mid \ phi)
Стадия III: ϕ ∼ P (ϕ) {\ displaystyle {\ text {Стадия III:}} \ phi \ sim P (\ phi)}{\ text {Стадия III:}} \ phi \ sim P (\ phi)

Вероятность, как видно на этапе I, равна P (yj ∣ θ j, ϕ) {\ displaystyle P (y_ {j} \ mid \ theta _ {j}, \ phi)}P (y_ {j} \ mid \ theta _ {j}, \ phi) , с P (θ j, ϕ) {\ displaystyle P (\ theta _ {j}, \ phi)}P (\ theta _ {j}, \ phi) в качестве предварительного распределения. Обратите внимание, что вероятность зависит от ϕ {\ displaystyle \ phi}\ phi только через θ j {\ displaystyle \ theta _ {j}}\ theta _ {j} .

Априорное распределение со стадии I может быть разбивается на:

P (θ j, ϕ) = P (θ j ∣ ϕ) P (ϕ) {\ displaystyle P (\ theta _ {j}, \ phi) = P (\ theta _ {j} \ mid \ phi) P (\ phi)}P (\ theta _ {j}, \ phi) = P (\ theta _ {j} \ mid \ phi) P (\ phi) [из определения условной вероятности]

С ϕ {\ displaystyle \ phi}\ phi в качестве гиперпараметра с гиперприором распределение, P (ϕ) {\ displaystyle P (\ phi)}P (\ phi) .

Таким образом, апостериорное распределение пропорционально:

P (ϕ, θ j ∣ y) ∝ P (yj ∣ θ j, ϕ) п (θ j, ϕ) {\ displaystyle P (\ phi, \ theta _ {j} \ mid y) \ propto P (y_ {j} \ mid \ theta _ {j}, \ phi) P (\ theta _ {j}, \ phi)}{\ Displaystyle P (\ phi, \ theta _ {j} \ mid y) \ propto P (y_ {j} \ mid \ theta _ {j}, \ phi) P (\ theta _ {j}, \ phi)} [с использованием теоремы Байеса]
P (ϕ, θ j ∣ y) ∝ P (yj ∣ θ j) P (θ j ∣ ϕ) P (ϕ) {\ Displaystyle P (\ phi, \ theta _ {j} \ mid y) \ propto P (y_ {j} \ mid \ theta _ {j}) P (\ theta _ {j} \ mid \ phi) P (\ phi)}{\ displaystyle P (\ phi, \ theta _ {j} \ mid y) \ propto P ( y_ {j} \ mid \ theta _ {j}) P (\ theta _ {j} \ mid \ phi) P (\ phi)}

Пример

Чтобы проиллюстрировать это, рассмотрим пример: Учитель хочет оценить, насколько хорошо студент сдал SAT. Учитель использует информацию об оценках учащегося в старшей школе и текущем среднем балле (GPA), чтобы сделать оценку. Текущий средний балл студента, обозначенный Y {\ displaystyle Y}Y , имеет вероятность, заданную некоторой функцией вероятности с параметром θ {\ displaystyle \ theta}\ theta , то есть Y ∣ θ ∼ P (Y ∣ θ) {\ Displaystyle Y \ mid \ theta \ sim P (Y \ mid \ theta)}Y \ mid \ theta \ sim P (Y \ mid \ theta) . Этот параметр θ {\ displaystyle \ theta}\ theta - это результат SAT учащегося. Оценка SAT рассматривается как выборка, полученная из общего распределения населения, проиндексированного другим параметром ϕ {\ displaystyle \ phi}\ phi , который является оценкой учащегося в старшей школе (первокурсник, второкурсник, младший или старший). То есть θ ∣ ϕ ∼ P (θ ∣ ϕ) {\ displaystyle \ theta \ mid \ phi \ sim P (\ theta \ mid \ phi)}\ theta \ mid \ phi \ sim P (\ theta \ mid \ phi) . Более того, гиперпараметр ϕ {\ displaystyle \ phi}\ phi следует своему собственному распределению, заданному как P (ϕ) {\ displaystyle P (\ phi)}P (\ phi) , a гиперприор. Чтобы вычислить результат SAT с учетом информации о среднем балле,

P (θ, ϕ ∣ Y) ∝ P (Y ∣ θ, ϕ) P (θ, ϕ) {\ displaystyle P (\ theta, \ phi \ mid Y) \ propto P (Y \ mid \ theta, \ phi) P (\ theta, \ phi)}P (\ theta, \ phi \ mid Y) \ propto P (Y \ mid \ theta, \ phi) P (\ theta, \ phi)
P (θ, ϕ ∣ Y) ∝ P (Y ∣ θ) P (θ ∣ ϕ) P ( ϕ) {\ displaystyle P (\ theta, \ phi \ mid Y) \ propto P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi)}P (\ theta, \ phi \ mid Y) \ propto P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi)

Вся информация в задаче будет использоваться для решения апостериорного распределения. Вместо решения только с использованием априорного распределения и функции правдоподобия использование гиперприоров дает больше информации для более точных представлений о поведении параметра.

Двухступенчатая иерархическая модель

В В общем, совместное апостериорное распределение интереса в двухэтапных иерархических моделях:

P (θ, ϕ ∣ Y) = P (Y ∣ θ, ϕ) P (θ, ϕ) P (Y) = P (Y ∣ θ) п (θ ∣ ϕ) п (ϕ) п (Y) {\ Displaystyle P (\ theta, \ phi \ mid Y) = {P (Y \ mid \ theta, \ phi) P (\ theta, \ phi) \ над P (Y)} = {P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi) \ over P (Y)}}P (\ theta, \ phi \ mid Y) = {P (Y \ mid \ theta, \ phi) P (\ theta, \ phi) \ over P (Y)} = {P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi) \ над P (Y)}
P (θ, ϕ ∣ Y) ∝ п (Y ∣ θ) п (θ ∣ ϕ) P (ϕ) {\ displaystyle P (\ theta, \ phi \ mid Y) \ propto P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi)}P (\ theta, \ phi \ mid Y) \ propto P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi)

Трехступенчатая иерархическая модель

Для трехступенчатых иерархических моделей апостериорное распределение задается следующим образом:

P (θ, ϕ, X ∣ Y) = П (Y ∣ θ) п (θ ∣ ϕ) п (ϕ ∣ X) п (X) P (Y) {\ displaystyle P (\ theta, \ phi, X \ mid Y) = {P (Y \ mid \ тета) П (\ тета \ середина \ фи) Р (\ фи \ mid X) P (X) \ над P (Y)}}P (\ theta, \ phi, X \ mid Y) = {P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi \ mid X) P (X) \ over P (Y)}
P (θ, ϕ, X ∣ Y) ∝ P (Y ∣ θ) P (θ ∣ ϕ) P (ϕ ∣ X) P (X) {\ Displaystyle Р (\ тета, \ фи, Икс \ середина Y) \ пропто Р (Y \ середина \ тета) Р (\ тета \ середина \ фи) Р (\ фи \ середина X) Р (Х)}P (\ theta, \ phi, X \ mid Y) \ propto P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi \ mid X) P (X)
Ссылки
Последняя правка сделана 2021-05-12 07:57:38
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте