Апостериорное прогнозирующее распределение

редактировать

В Байесовской статистике апостериорное прогнозное распределение - это распределение возможных ненаблюдаемых значения, обусловленные наблюдаемыми значениями.

Дан набор из N iid наблюдений $X = {x 1,…, x N} {\ displaystyle \ mathbf {X} = \ {x_ {1}, \ dots, x_ {N} \}}$ $\ mathbf {X} = \ {x_ {1}, \ dots, x_ {N} \}$ , новое значение $x ~ {\ displaystyle {\ tilde {x}}}$ ${\ tilde {x}}$ будет получено из распределения, которое зависит от параметра $θ ∈ Θ {\ displaystyle \ theta \ in \ Theta}$ $\ theta \ in \ Theta$ :

p (x ~ | θ) {\ displaystyle p ({\ tilde {x}} | \ theta)}

{\ displaystyle p ({\ tilde {x}} | \ theta)}

Может показаться заманчивым вставить одну лучшую оценку $θ ^ {\ displaystyle {\ hat {\ theta}}}$ $\ hat {\ theta}$ для $θ {\ displaystyle \ theta}$ $\ theta$ , но при этом игнорируется неопределенность относительно $θ {\ displaystyle \ theta}$ $\ theta$ , и поскольку источник неопределенности игнорируется, прогнозируемое распределение будет слишком узким. Экстремальные значения $x ~ {\ displaystyle {\ tilde {x}}}$ ${\ tilde {x}}$ будут встречаться чаще, чем предполагает апостериорное распределение.

Апостериорное прогнозирующее распределение учитывает неопределенность относительно $θ {\ displaystyle \ theta}$ $\ theta$ . Апостериорное распределение возможных значений $θ {\ displaystyle \ theta}$ $\ theta$ зависит от $X {\ displaystyle \ mathbf {X}}$ $\ mathbf {X}$ :

p (θ | X) {\ displaystyle p (\ theta | \ mathbf {X})}

{\ displaystyle p (\ theta | \ mathbf {X})}

И апостериорное прогнозное распределение $x ~ {\ displaystyle {\ tilde {x}}}$ ${\ tilde {x}}$ при $X {\ displaystyle \ mathbf {X}}$ $\ mathbf {X}$ вычисляется путем маргинализации распределения $x ~ {\ displaystyle {\ tilde {x}}}$ ${\ tilde {x}}$ при $θ {\ displaystyle \ theta}$ $\ theta$ по апостериорному распределению $θ {\ displaystyle \ theta}$ $\ theta$ при $X {\ displaystyle \ mathbf {X}}$ $\ mathbf {X}$ :

п (Икс ~ | Икс) знак равно ∫ Θ п (Икс ~ | θ, X) п (θ | X) d θ {\ Displaystyle p ({\ тильда {x}} | \ mathbf {X}) = \ int _ {\ Theta} p ({\ tilde {x}} | \ theta, \ mathbf {X}) \, p (\ theta | \ mathbf {X}) \ operatorname {d} \! \ theta}

{\ displaystyle p ({\ tilde {x}} | \ mathbf {X}) = \ int _ {\ Theta} p ({\ tilde {x}} | \ theta, \ mathbf {X}) \, p (\ theta | \ mathbf {X}) \ operatorname {d} \! \ theta}

Поскольку он учитывает неопределенность относительно $θ {\ displaystyle \ theta}$ $\ theta$ , апостериорное прогнозирующее распределение в целом будет шире, чем прогнозирующее распределение w Он включает единую наилучшую оценку для $θ {\ displaystyle \ theta}$ $\ theta$ .

Contents

1 Предыдущее и апостериорное прогнозное распределение
2 В экспоненциальных семьях
- 2.1 Предыдущее прогнозное распределение в экспоненциальных семьях
- 2.2 Апостериорное прогностическое распределение в экспоненциальных семьях
- 2.3 Совместное предсказывающее распределение, маргинальное правдоподобие
3 Связь с выборкой Гиббса
4 См. Также
5 Ссылки

Предыдущее и апостериорное предсказательное распределение

предварительное прогнозируемое распределение в байесовском контексте - это распределение точки данных, маргинализированной по сравнению с предыдущим распределением. То есть, если $x ~ ∼ F (x ~ | θ) {\ displaystyle {\ tilde {x}} \ sim F ({\ tilde {x}} | \ theta)}$ ${\ tilde {x}} \ sim F ({\ tilde {x}} | \ theta)$ и $θ ∼ G (θ | α) {\ displaystyle \ theta \ sim G (\ theta | \ alpha)}$ $\ theta \ sim G ( \ theta | \ alpha)$ , тогда предварительное прогнозирующее распределение является соответствующим распределением $H (x ~ | α) {\ Displaystyle H ({\ тильда {x}} | \ alpha)}$ $H ({\ tilde {x}} | \ alpha)$ , где

p H (x ~ | α) = ∫ θ p F (x ~ | θ) п G (θ | α) d θ {\ displaystyle p_ {H} ({\ tilde {x}} | \ alpha) = \ int _ {\ theta} p_ {F} ({\ tilde {x}} | \ theta) \, p_ {G} (\ theta | \ alpha) \ operatorname {d} \! \ theta}

p_ {H} ( {\ tilde {x}} | \ alpha) = \ int _ {\ theta} p_ {F} ({\ tilde {x}} | \ theta) \, p_ {G} (\ theta | \ alpha) \ operatorname {d } \! \ theta

Это похоже на апостериорное прогнозирующее распределение, за исключением того, что маргинализация (или, что то же самое, ожидание) берется с учетом к предыдущему распределению вместо апостериорного распределения.

Кроме того, если априорное распределение $G (θ | α) {\ displaystyle G (\ theta | \ alpha)}$ $G (\ theta | \ alpha)$ является сопряженным предшествующим, тогда апостериорное прогнозирующее распределение будет принадлежать к тому же семейству распределений, что и предыдущее прогнозирующее распределение. Это легко увидеть. Если априорное распределение $G (θ | α) {\ displaystyle G (\ theta | \ alpha)}$ $G (\ theta | \ alpha)$ сопряжено, то

p (θ | X, α) = p G ( θ | α ′), {\ displaystyle p (\ theta | \ mathbf {X}, \ alpha) = p_ {G} (\ theta | \ alpha '),}

p(\theta |\mathbf {X},\alpha)=p_{G}(\theta |\alpha '),

т.е. апостериорное распределение также принадлежит $G (θ | α), {\ displaystyle G (\ theta | \ alpha),}$ $G (\ theta | \ alpha),$ , но просто с другим параметром $α ′ {\ displaystyle \ alpha '}$ $\alpha '$ вместо исходного параметра $α. {\ displaystyle \ alpha.}$ $\ alpha.$ Тогда

p (x ~ | X, α) = ∫ θ p F (x ~ | θ) p (θ | X, α) d θ = ∫ θ п F (x ~ | θ) п G (θ | α ′) d θ = p H (x ~ | α ′) {\ displaystyle {\ begin {align} p ({\ tilde {x}} | \ mathbf {X}, \ alpha) = \ int _ {\ theta} p_ {F} ({\ tilde {x}} | \ theta) \, p (\ theta | \ mathbf {X}, \ alpha) \ operatorname {d} \! \ theta \\ = \ int _ {\ theta} p_ {F} ({\ tilde {x}} | \ theta) \, p_ {G} (\ theta | \ alpha ') \ operatorname {d} \! \ theta \\ = p_ {H} ({\ tilde {x}} | \ alpha ') \ end {align}}}

{\begin{aligned}p({\tilde {x}}|\mathbf {X},\alpha)=\int _{\theta }p_{F}({\tilde {x}}|\theta)\,p(\theta |\mathbf {X},\alpha)\operatorname {d} \!\theta \\=\int _{\theta }p_{F}({\tilde {x}}|\theta)\,p_{G}(\theta |\alpha ')\operatorname {d} \!\theta \\=p_{H}({\tilde {x}}|\alpha ')\end{aligned}}

Следовательно, апостериорное прогнозное распределение следует тому же распределению H, что и предыдущее прогнозирующее распределение, но с апостериорными значениями гиперпараметров, заменяющими предыдущие.

Предыдущее прогнозируемое распределение имеет форму составного распределения и фактически часто используется для определения составного распределения из-за отсутствия каких-либо усложняющих такие факторы, как зависимость от данных $X {\ displaystyle \ mathbf {X}}$ $\ mathbf {X}$ и проблема сопряжения. Например, t-распределение Стьюдента можно определить как предварительное прогнозирующее распределение нормального распределения с известным средним μ, но неизвестной дисперсией <225.>, с сопряженным априорным распределением масштабированного обратного хи-квадрат, помещенным на σ x, с гиперпараметрами ν и σ. Результирующее составное распределение $t (x | μ, ν, σ 2) {\ displaystyle t (x | \ mu, \ nu, \ sigma ^ {2})}$ $t (x | \ mu, \ nu, \ sigma ^ {2})$ действительно не- стандартизованное t-распределение Стьюдента и следует одной из двух наиболее распространенных параметризаций этого распределения. Тогда соответствующее апостериорное прогнозирующее распределение снова будет t Стьюдента с обновленными гиперпараметрами $ν ′, σ 2 ′ {\ displaystyle \ nu ', {\ sigma ^ {2}}'}$ $\nu ',{\sigma ^{2}}'$ , что появляются в апостериорном распределении, а также непосредственно появляются в апостериорном прогностическом распределении.

В некоторых случаях подходящее составное распределение определяется с использованием другой параметризации, чем та, которая была бы наиболее естественной для прогнозных распределений в текущей рассматриваемой проблеме. Часто это происходит потому, что предыдущее распределение, используемое для определения составного распределения, отличается от того, которое используется в текущей задаче. Например, как указано выше, t-распределение Стьюдента было определено в терминах масштабированного обратного распределения хи-квадрат, помещенного на дисперсию. Однако более распространено использование обратного гамма-распределения в качестве предшествующего конъюгата в этой ситуации. На самом деле они эквивалентны, за исключением параметризации; следовательно, t-распределение Стьюдента по-прежнему может использоваться для любого прогнозирующего распределения, но гиперпараметры должны быть повторно параметризованы перед подключением.

В экспоненциальных семьях

Большинство, но не все, общие семейства распределений принадлежат к экспоненциальному семейству распределений. Экспоненциальные семейства обладают большим количеством полезных свойств. Один из них заключается в том, что все члены имеют предшествующие конъюгированные распределения - тогда как очень немногие другие распределения имеют конъюгированные априорные значения.

Предыдущее прогнозируемое распределение в экспоненциальных семьях

Другое полезное свойство состоит в том, что функция плотности вероятности составного распределения, соответствующая предыдущему прогнозируемому распределению экспоненциальное семейство распределение маргинальное по его сопряженному априорному распределению может быть определено аналитически. Предположим, что $F (x | θ) {\ displaystyle F (x | {\ boldsymbol {\ theta}})}$ $F (x | {\ boldsymbol {\ theta}})$ является членом экспоненциального семейства с параметром $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ , который параметризуется в соответствии с естественным параметром $η = η (θ) {\ displaystyle {\ boldsymbol {\ eta}} = {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}})}$ ${\ boldsymbol {\ eta}} = {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}})$ и распределяется как

p F (x | η) = h (x) g (η) e η TT (Икс) {\ Displaystyle p_ {F} (х | {\ boldsymbol {\ eta}}) = h (x) g ({\ boldsymbol {\ eta}}) e ^ {{\ boldsymbol {\ eta} } ^ {\ rm {T}} \ mathbf {T} (x)}}

p_ {F} (x | {\ boldsymbol {\ eta}}) = h (x) g ({\ boldsymbol {\ eta}}) e ^ {{\ boldsymbol { \ eta}} ^ {\ rm {T}} \ mathbf {T} (x)}

, а $G (η | χ, ν) {\ displaystyle G ({\ boldsymbol {\ eta}} | {\ жирный символ {\ chi}}, \ nu)}$ $G ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu)$ - соответствующий сопряженный априор, распределенный как

p G (η | χ, ν) = f (χ, ν) g (η) ν e η T χ {\ Displaystyle p_ {G} ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) g ({ \ boldsymbol {\ eta}}) ^ {\ nu} e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}}}

p_ {G} ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol {\ eta}}) ^ {\ nu} e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi }}}

Тогда предыдущий прогнозный распределение $H {\ displaystyle H}$ $H$ (результат сложения $F {\ displaystyle F}$ $F$ с $G {\ displaystyle G}$ $G$ ) равно

p H (x | χ, ν) = η p F (x | η) p G (η | χ, ν) d ⁡ η = η h (x) g (η) e η TT (x) f (χ, ν) g (η) ν e η T χ d ⁡ η = h (x) f (χ, ν) η g (η) ν + 1 e η T (χ + T (x)) d ⁡ η = h (x) е (χ, ν) е (χ + T (x), ν + 1) {\ displaystyle {\ begin {align} p_ {H} (x | {\ boldsymbol {\ chi}}, \ nu) = { \ displaystyle \ int \ limits _ {\ boldsymbol {\ eta}} p_ {F} (x | {\ boldsymbol {\ eta}}) p_ {G} ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu) \, \ operatorname {d} {\ boldsymbol {\ eta}}} \\ = {\ displaystyle \ int \ limits _ {\ boldsymbol {\ eta}} h (x) g ({ \ boldsymbol {\ eta}}) e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} \ mathbf {T} (x)} f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol {\ eta}}) ^ {\ nu} e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}} \, \ operatorname {d } {\ boldsymbol {\ eta}}} \\ = {\ displaystyle h (x) f ({\ boldsymbol {\ chi}}, \ nu) \ int \ limits _ {\ boldsymbol {\ eta}} g ( {\ boldsymbol {\ eta}}) ^ {\ nu +1} e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} ({\ boldsymbol {\ chi}} + \ mathbf {T} (x))} \, \ operatorname {d} {\ boldsymbo l {\ eta}}} \\ = h (x) {\ dfrac {f ({\ boldsymbol {\ chi}}, \ nu)} {f ({\ boldsymbol {\ chi}} + \ mathbf {T } (x), \ nu +1)}} \ end {align}}}

{\ begin {align} p_ {H} (Икс | {\ boldsymbol {\ chi}}, \ Nu) = {\ displaystyle \ int \ limits _ {\ boldsymbol {\ eta}} p_ {F} (x | {\ boldsymbol {\ eta}}) p_ {G} ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu) \, \ operatorname {d} {\ boldsymbol {\ eta}}} \\ = {\ displaystyle \ int \ limits _ {\ boldsymbol {\ eta}} h (x) g ({\ boldsymbol {\ eta}}) e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} \ mathbf {T} (x)} f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol {\ eta}}) ^ {\ nu} e ^ {{\ boldsymbol {\ eta}} ^ {\ rm { T}} {\ bo ldsymbol {\ chi}}} \, \ operatorname {d} {\ boldsymbol {\ eta}}} \\ = {\ displaystyle h (x) f ({\ boldsymbol {\ chi}}, \ nu) \ int \ limits _ {\ boldsymbol {\ eta}} g ({\ boldsymbol {\ eta}}) ^ {\ nu +1} e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} ({ \ boldsymbol {\ chi}} + \ mathbf {T} (x))} \, \ operatorname {d} {\ boldsymbol {\ eta}}} \\ = h (x) {\ dfrac {f ({\ boldsymbol {\ chi}}, \ nu)} {f ({\ boldsymbol {\ chi}} + \ mathbf {T} (x), \ nu +1)}} \ end {align}}

Последняя строка следует из предыдущей, признавая, что функция внутри интеграла является функцией плотности случайной величины, распределенной как $G (η | χ + T (Икс), ν + 1) {\ Displaystyle G ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}} + \ mathbf {T} (x), \ nu +1)}$ $G ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}} + \ mathbf {T} (x), \ nu +1)$ , за исключением нормализующей функции $f (…) {\ displaystyle f (\ dots) \,}$ $f (\ dots) \,$ . Следовательно, результат интегрирования будет обратным нормирующей функции.

Приведенный выше результат не зависит от выбора параметризации $θ {\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ , так как ни один из $θ {\ displaystyle { \ boldsymbol {\ theta}}}$ ${\ boldsymbol {\ theta}}$ , $η {\ displaystyle {\ boldsymbol {\ eta}}}$ ${\ boldsymbol {\ eta}}$ и $g (…) {\ displaystyle g (\ dots) \,}$ $g ( \ точки) \,$ появляется. ( $g (…) {\ displaystyle g (\ dots) \,}$ $g ( \ точки) \,$ является функцией параметра и, следовательно, будет принимать разные формы в зависимости от выбора параметризации.) Для стандартных вариантов $F {\ displaystyle F}$ $F$ и $G {\ displaystyle G}$ $G$ , часто проще работать напрямую с обычными параметрами, чем переписывать в терминах естественные параметры.

Причина, по которой интеграл поддается обработке, заключается в том, что он включает вычисление константы нормализации плотности, определенной произведением априорного распределения и правдоподобия. Когда оба являются сопряженными, произведение представляет собой апостериорное распределение, и, по предположению, нормировочная константа этого распределения известна. Как показано выше, функция плотности составного распределения следует определенной форме, состоящей из произведения функции $h (x) {\ displaystyle h (x)}$ $h(x)$ который составляет часть функции плотности для $F {\ displaystyle F}$ $F$ , с частным двух форм нормализации «константа» для $G {\ displaystyle G}$ $G$ , один получен из априорного распределения, а другой - из апостериорного распределения. бета-биномиальное распределение - хороший пример того, как работает этот процесс.

Несмотря на аналитическую управляемость таких распределений, они сами по себе обычно не являются членами экспоненциального семейства. Например, трехпараметрическое t-распределение Стьюдента, бета-биномиальное распределение и полиномиальное распределение Дирихле - все это прогностические распределения экспоненциально-семейных распределений (нормальное распределение, биномиальное распределение и полиномиальное распределение, соответственно), но ни одно из них не является членом экспоненциального семейства. Это можно видеть выше из-за наличия функциональной зависимости от $χ + T (x) {\ displaystyle {\ boldsymbol {\ chi}} + \ mathbf {T} (x)}$ ${\ boldsymbol {\ chi}} + \ mathbf {T} (x)$ . В экспоненциальном семейном распределении должна быть возможность разделить всю функцию плотности на мультипликативные множители трех типов: (1) факторы, содержащие только переменные, (2) факторы, содержащие только параметры, и (3) факторы, логарифм которых разлагается между переменными. и параметры. Наличие $χ + T (x) χ {\ displaystyle {\ boldsymbol {\ chi}} + \ mathbf {T} (x) {\ chi}}$ ${\ boldsymbol {\ chi}} + \ mathbf {T} (x) {\ chi}$ делает это невозможным, если только " нормализующая "функция $f (…) {\ displaystyle f (\ dots) \,}$ $f (\ dots) \,$ либо полностью игнорирует соответствующий аргумент, либо использует его только в экспоненте выражения.

Апостериорное прогнозирующее распределение в экспоненциальных семьях

Когда используется сопряженное предшествующее распределение, апостериорное прогнозирующее распределение принадлежит к тому же семейству, что и предыдущее прогнозирующее распределение, и определяется просто путем добавления обновленных гиперпараметров для апостериорного распределения параметра (ов) в формулу для априорного прогнозного распределения. Используя общую форму уравнений апостериорного обновления для распределений экспоненциального семейства (см. Соответствующий раздел в статье об экспоненциальном семействе ), мы можем выписать явную формулу для апостериорного прогнозного распределения:

p ( Икс ~ | Икс, χ, ν) знак равно п ЧАС (Икс ~ | χ + T (X), ν + N) {\ displaystyle {\ begin {array} {lcl} p ({\ tilde {x}} | \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) = p_ {H} \ left ({\ tilde {x}} | {\ boldsymbol {\ chi}} + \ mathbf {T} (\ mathbf {X}), \ nu + N \ right) \ end {array}}}

{\ begin {array} {lcl} p ({\ tilde {x }} | \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) = p_ {H} \ left ({\ tilde {x}} | {\ boldsymbol {\ chi}} + \ mathbf { T} (\ mathbf {X}), \ nu + N \ right) \ end {array}}

где

T (X) = ∑ i = 1 NT (xi) {\ displaystyle \ mathbf {T} (\ mathbf {X}) = \ sum _ {i = 1} ^ {N} \ mathbf {T} (x_ {i})}

\ mathbf {T} (\ mathbf {X}) = \ sum _ {i = 1} ^ {N} \ mathbf {T } (x_ {i})

Это показывает, что апостериорное прогнозное распределение серии наблюдений в случае, когда наблюдения следуют за экспоненциальным семейством с соответствующим конъюгатом перед, имеет ту же плотность вероятности, что и составное распределение, с параметрами, указанными выше. Сами наблюдения входят только в форме $T (X) = ∑ i = 1 N T (x i). {\ displaystyle \ mathbf {T} (\ mathbf {X}) = \ sum _ {i = 1} ^ {N} \ mathbf {T} (x_ {i}).}$ $\ mathbf {T} (\ mathbf { X}) = \ sum _ {i = 1} ^ {N} \ mathbf {T} (x_ {i}).$

Это называется достаточная статистика наблюдений, потому что она сообщает нам все, что нам нужно знать о наблюдениях, чтобы вычислить апостериорное или апостериорное прогнозирующее распределение на их основе (или, если на то пошло, что-нибудь еще на основе вероятность наблюдений, например предельная вероятность ).

Совместное прогнозируемое распределение, предельная вероятность

Также можно учитывать результат сложения совместного распределения по фиксированному числу независимых одинаково распределенных выборок с предварительным распределением по общему параметру. В байесовской среде это проявляется в различных контекстах: вычисление априорного или апостериорного прогнозирующего распределения нескольких новых наблюдений и вычисление предельного правдоподобия наблюдаемых данных (знаменатель в законе Байеса ). Когда распределение образцов происходит из экспоненциального семейства, а предварительное распределение является конъюгированным, полученное распределение соединений будет управляемым и будет следовать форме, аналогичной приведенному выше выражению. На самом деле легко показать, что совместное составное распределение набора $X = {x 1,…, x N} {\ displaystyle \ mathbf {X} = \ {x_ {1}, \ dots, x_ {N} \}}$ $\ mathbf {X} = \ {x_ {1}, \ dots, x_ {N} \}$ для $N {\ displaystyle N}$ $N$ наблюдений равно

p H (X | χ, ν) = (∏ i = 1 N час (xi)) е (χ, ν) е (χ + T (X), ν + N) {\ displaystyle p_ {H} (\ mathbf {X} | {\ boldsymbol {\ chi}}, \ nu) = \ left (\ prod _ {i = 1} ^ {N} h (x_ {i}) \ right) {\ dfrac {f ({\ boldsymbol {\ chi}}, \ nu)} {f \ left ( {\ boldsymbol {\ chi}} + \ mathbf {T} (\ mathbf {X}), \ nu + N \ right)}}}

p_ {H} (\ mathbf {X} | {\ boldsymbol {\ chi}}, \ nu) = \ left (\ prod _ {i = 1} ^ {N} h (x_ {i}) \ right) {\ dfrac {f ({\ boldsymbol {\ chi}}, \ nu)} {f \ left ({\ boldsymbol {\ chi}} + \ mathbf {T} (\ mathbf {X}), \ nu + N \ right)}}

Этот результат и приведенный выше результат для одного составного распределения тривиально распространяются на случай распределения по векторному наблюдению, например, многомерное гауссовское распределение.

Отношение к выборке Гиббса

Сворачивание узла в свернутой выборке Гиббса эквивалентно к составному. В результате, когда набор из независимых одинаково распределенных узлов (iid) все зависит от одного и того же предшествующего узла, и этот узел свернут, результирующая условная вероятность одного заданного узла остальные, а также родители свернутого узла (но не обусловливают какие-либо другие узлы, например, любые дочерние узлы) такие же, как апостериорное прогнозирующее распределение всех оставшихся iid узлы (или, точнее, ранее i.i.d. узлы, так как сворачивание вводит зависимости между узлами). То есть, как правило, можно реализовать свертывание узла, просто прикрепив всех родителей узла непосредственно ко всем дочерним элементам и заменив прежнее условное распределение вероятностей, связанное с каждым дочерним элементом, на соответствующее апостериорное прогнозирующее распределение для ребенка, обусловленное его родители и другой бывший iid узлы, которые также были дочерними по отношению к удаленному узлу. Например, для более подробного обсуждения и некоторых предостережений по некоторым сложным вопросам см. Статью Полиномиальное распределение Дирихле.

См. Также

Ссылки