Сопряжение предшествующего

редактировать

В теории байесовской вероятности, если апостериорные распределения p (θ | x) находятся в том же семействе распределения вероятностей , что и априорное распределение вероятностей p (θ), априорное и апостериорное тогда называются сопряженными распределениями, и априорное называется сопряжение предшествующего для функции правдоподобия p (x | θ). Например, семейство Гаусса сопряжено самому себе (или самосопряжено) относительно гауссовой функции правдоподобия: если функция правдоподобия гауссова, выбор гауссовского априорного значения по сравнению со средним будет гарантировать, что апостериорное распределение также гауссовский. Это означает, что гауссово распределение является сопряженным априорным значением вероятности, которое также является гауссовым. Это понятие, а также термин «сопряженный априор» были введены Ховардом Райффой и Робертом Шлайфером в их работе по байесовской теории принятия решений. Подобная концепция была независимо открыта Джорджем Альфредом Барнардом.

. ​​Рассмотрим общую проблему вывода (непрерывного) распределения для параметра θ с учетом некоторого элемента данных или данных x. Из теоремы Байеса апостериорное распределение равно произведению функции правдоподобия θ ↦ p (x ∣ θ) {\ displaystyle \ theta \ mapsto p (x \ mid \ theta) \ !}\theta \mapsto p(x\mid \theta)\!и предшествующий p (θ) {\ displaystyle p (\ theta) \!}p(\theta)\!, нормализованный (деленный) на вероятность данных p ( Икс) {\ Displaystyle р (Икс) \!}p(x)\!:

p (θ ∣ x) = p (x ∣ θ) p (θ) p (x) = p (x ∣ θ) p (θ) ∫ θ ′ п (Икс, θ ′) d θ ′ = p (x ∣ θ) p (θ) ∫ θ ′ p (x ∣ θ ′) p (θ ′) d θ ′ {\ displaystyle {\ begin {align} p ( \ theta \ mid x) = {\ frac {p (x \ mid \ theta) \, p (\ theta)} {p (x)}} \\ = {\ frac {p (x \ mid \ theta)) \, p (\ theta)} {\ int _ {\ theta '} p (x, \ theta') \, d \ theta '}} \\ = {\ frac {p (x \ mid \ theta) \, p (\ theta)} {\ int _ {\ theta '} p (x \ mid \ theta') \, p (\ theta ') \, d \ theta'}} \ end {align}}}{\displaystyle {\begin{aligned}p(\theta \mid x)={\frac {p(x\mid \theta)\,p(\theta)}{p(x)}}\\={\frac {p(x\mid \theta)\,p(\theta)}{\int _{\theta '}p(x,\theta ')\,d\theta '}}\\={\frac {p(x\mid \theta)\,p(\theta)}{\int _{\theta '}p(x\mid \theta ')\,p(\theta ')\,d\theta '}}\end{aligned}}}

Пусть функция правдоподобия считается фиксированной; функция правдоподобия обычно хорошо определяется из описания процесса генерации данных. Ясно, что различные варианты априорного распределения p (θ) могут сделать интеграл более или менее трудным для вычисления, и произведение p (x | θ) × p (θ) может принимать ту или иную алгебраическую форму. Для некоторых вариантов апостериорного выбора апостериорная имеет ту же алгебраическую форму, что и апостериорная (как правило, с разными значениями параметров). Такой выбор - сопряженный апор.

Сопряжение предшествующего - это алгебраическое удобство, дающее выражение в закрытой форме для апостериорного; в противном случае может потребоваться численное интегрирование. Кроме того, сопряженные априорные значения могут дать интуицию, более прозрачно показывая, как функция правдоподобия обновляет предыдущее распределение.

Все члены экспоненциального семейства имеют сопряженные априоры.

Содержание
  • 1 Пример
  • 2 Псевдо-наблюдения
  • 3 Интерпретации
    • 3.1 Аналогия с собственными функциями
    • 3.2 Динамическая система
  • 4 Практический пример
  • 5 Таблица сопряженных распределений
    • 5.1 Когда функция правдоподобия является дискретным распределением
    • 5.2 Когда функция правдоподобия является непрерывным распределением
  • 6 См. Также
  • 7 Примечания
  • 8 Ссылки
Пример

Форма сопряженного априорного значения обычно может быть определена путем анализа плотности вероятности или функции массы вероятности распределения. Например, рассмотрим случайную переменную, которая состоит из числа успешных s {\ displaystyle s}sв n {\ displaystyle n}nиспытаниях Бернулли. с неизвестной вероятностью успеха q {\ displaystyle q}qв [0,1]. Эта случайная величина будет следовать биномиальному распределению с функцией массы вероятности вида

p (s) = (ns) qs (1 - q) n - s {\ displaystyle p (s) = {n \ choose s} q ^ {s} (1-q) ^ {ns}}{\displaystyle p(s)={n \choose s}q^{s}(1-q)^{n-s}}

Обычное сопряженное априорное значение - это бета-распределение с параметрами (α {\ displaystyle \ альфа}\alpha , β {\ displaystyle \ beta}\beta ):

p (q) = q α - 1 (1 - q) β - 1 B (α, β) {\ displaystyle p (q) = {q ^ {\ alpha -1} (1-q) ^ {\ beta -1} \ over \ mathrm {B} (\ alpha, \ beta)}}p(q)={q^{\alpha -1}(1-q)^{\beta -1} \over \mathrm {B} (\alpha,\beta)}

где α { \ displaystyle \ alpha}\alpha и β {\ displaystyle \ beta}\beta выбираются для отражения любого существующего убеждения или информации (α {\ displaystyle \ alpha}\alpha = 1 и β {\ displaystyle \ beta}\beta = 1 даст равномерное распределение ) и Β (α {\ displaystyle \ alpha}\alpha , β {\ displaystyle \ beta}\beta ) - это бета-функция, действующая как нормализующая константа.

В этом контексте α {\ displaystyle \ альфа}\alpha и β {\ displaystyle \ beta}\beta называются гиперпараметрами (предыдущими параметрами), чтобы отличать их от параметров базовой модели (здесь q). Типичной характеристикой сопряженных априорных значений является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, это означает, что гиперпараметров будет на один больше, чем параметра; но это также относится к параметрам с векторными и матричными значениями. (См. Общую статью о экспоненциальном семействе, а также рассмотрите распределение Уишарта, сопряженное априорное значение ковариационной матрицы многомерного нормального распределения , для примера, где задействована большая размерность.)

Если мы затем выберем эту случайную величину и получим s успехов и f неудач, мы получим

P (s, f ∣ q = x) = (s + fs) xs (1 - x) f, P (q = x) = x α - 1 (1 - x) β - 1 B (α, β), P (q = x ∣ s, f) = P (s, f ∣ x) P (x) ∫ P (s, f ∣ y) P (y) dy = (s + fs) xs + α - 1 (1 - x) f + β - 1 / B (α, β) ∫ y = 0 1 ((s + fs) ys + α - 1 (1 - y) f + β - 1 / B (α, β)) dy = xs + α - 1 (1 - x) е + β - 1 В (s + α, f + β), {\ displaystyle {\ begin {align} P (s, f \ mid q = x) = {s + f \ choose s} x ^ { s} (1-x) ^ {f}, \\ P (q = x) = {x ^ {\ alpha -1} (1-x) ^ {\ beta -1} \ over \ mathrm {B} (\ alpha, \ beta)}, \\ P (q = x \ mid s, f) = {\ frac {P (s, f \ mid x) P (x)} {\ int P (s, f) \ mid y) P (y) dy}} \\ = {{{s + f \ choose s} x ^ {s + \ alpha - 1} (1-x) ^ {f + \ beta -1} / \ mathrm {B} (\ alpha, \ beta)} \ over \ int _ {y = 0} ^ {1} \ left ({s + f \ choose s} y ^ {s + \ alpha -1} (1-y) ^ {f + \ beta -1} / \ mathrm {B} (\ alpha, \ beta) \ right) dy} \\ = {x ^ {s + \ alpha -1} (1-x) ^ {f + \ beta -1} \ over \ mathrm {B} (s + \ alpha, f + \ beta)}, \ end {align}}}{\displaystyle {\begin{aligned}P(s,f\mid q=x)={s+f \choose s}x^{s}(1-x)^{f},\\P(q=x)={x^{\alpha -1}(1-x)^{\beta -1} \over \mathrm {B} (\alpha,\beta)},\\P(q=x\mid s,f)={\frac {P(s,f\mid x)P(x)}{\int P(s,f\mid y)P(y)dy}}\\={{{s+f \choose s}x^{s+\alpha -1}(1-x)^{f+\beta -1}/\mathrm {B} (\alpha,\beta)} \over \int _{y=0}^{1}\left({s+f \choose s}y^{s+\alpha -1}(1-y)^{f+\beta -1}/\mathrm {B} (\alpha,\beta)\right)dy}\\={x^{s+\alpha -1}(1-x)^{f+\beta -1} \over \mathrm {B} (s+\alpha,f+\beta)},\end{aligned}}}

который - другое бета-распределение с параметрами (α {\ displaystyle \ alpha}\alpha + s, β {\ displaystyle \ beta}\beta + f). Это апостериорное распределение затем можно было бы использовать в качестве априорного для большего количества выборок, при этом гиперпараметры просто добавляли каждую дополнительную часть информации по мере ее поступления.

Псевдонаблюдения

Часто бывает полезно думать о гиперпараметрах сопряженного априорного распределения как соответствующих наблюдению определенного количества псевдонаблюдений со свойствами, заданными параметрами. Например, значения α {\ displaystyle \ alpha}\alpha и β {\ displaystyle \ beta}\beta бета-распределения могут быть считается соответствующим α - 1 {\ displaystyle \ alpha -1}\alpha -1успехов и β - 1 {\ displaystyle \ beta -1}\beta -1неудач, если задний режим используется для выбора оптимальной настройки параметра или α {\ displaystyle \ alpha}\alpha успехов и β {\ displaystyle \ beta}\beta неудач, если Среднее значение используется для выбора оптимальной настройки параметра. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать в терминах псевдонаблюдений. Это может помочь как в обеспечении интуиции за часто запутанными уравнениями обновления, так и в выборе разумных гиперпараметров для априорных.

Интерпретации

Аналогия с собственными функциями

Сопряженные априорные значения аналогичны собственным функциям в теории операторов в том смысле, что они являются распределениями на в котором «обусловливающий оператор» действует хорошо понимаемым образом, думая о процессе перехода от предшествующего к последующему как оператора.

Как в собственных функциях, так и в сопряженных априорных значениях существует конечномерное пространство, которое сохраняется оператором: выход имеет ту же форму (в том же пространстве), что и вход. Это значительно упрощает анализ, так как в противном случае рассматривается бесконечномерное пространство (пространство всех функций, пространство всех распределений).

Однако процессы только аналогичны, а не идентичны: кондиционирование не является линейным, поскольку пространство распределений не замыкается линейной комбинацией, только выпуклой комбинацией, а апостериор имеет только ту же форму, что и предыдущий, а не скалярное кратное.

Так же, как можно легко проанализировать, как линейная комбинация собственных функций развивается при применении оператора (поскольку по отношению к этим функциям оператор диагонализован ), можно легко проанализировать, как выпуклая комбинация конъюгированных априорных элементов развивается при кондиционировании; это вызывается с использованием гиперприора и соответствует использованию плотности смеси конъюгированных априорных точек, а не одного предшествующего конъюгата.

Динамическая система

Условие на сопряженные априорные факторы можно рассматривать как определение вида (дискретного времени) динамической системы : из заданного набора гиперпараметров, поступающие обновления данных эти гиперпараметры, поэтому изменение гиперпараметров можно рассматривать как своего рода «временную эволюцию» системы, соответствующую «обучению». Начало в разных точках дает разные потоки с течением времени. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что, поскольку разные выборки приводят к разным выводам, это зависит не просто от времени, а от данных с течением времени. Связанные подходы см. В разделах Рекурсивная байесовская оценка и Ассимиляция данных.

Практический пример

Предположим, в вашем городе работает служба аренды автомобилей. Водители могут выгружать и забирать автомобили в любом месте в черте города. Найти и арендовать автомобили можно с помощью приложения.

Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль на небольшом расстоянии от вашего домашнего адреса в любое заданное время суток.

В течение трех дней вы просматриваете приложение в случайное время дня и обнаруживаете следующее количество автомобилей на небольшом расстоянии от вашего домашнего адреса: x = [3, 4, 1] {\ displaystyle \ mathbf {x} = [3,4,1]}{\displaystyle \mathbf {x} =[3,4,1]}

Если мы предположим, что данные поступают из распределения Пуассона, мы можем вычислить оценку максимального правдоподобия для параметры модели λ = 3 + 4 + 1 3 ≈ 2,67. {\ textstyle \ lambda = {\ frac {3 + 4 + 1} {3}} \ приблизительно 2,67.}{\textstyle \lambda ={\frac {3+4+1}{3}}\approx 2.67.}Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что будет доступен хотя бы один автомобиль : p (x>0) = 1 - p (x = 0) = 1 - 2,67 0 e - 2,67 0! ≈ 0,93 {\ textstyle p (x>0) = 1-p (x = 0) = 1 - {\ frac {2,67 ^ {0} e ^ {- 2,67}} {0!}} \ Приблизительно 0,93}{\textstyle p(x>0) = 1-p (x = 0) = 1 - {\ frac {2.67 ^ {0} e ^ {- 2.67}} {0!}} \ Приблизительно 0,93}

Это наиболее вероятный вариант распределения Пуассона. для создания наблюдаемых данных x {\ displaystyle \ mathbf {x}}\mathbf {x} . Но данные также могли быть получены из другого распределения Пуассона, например, с λ = 3 {\ displaystyle \ lambda = 3}{\displaystyle \lambda =3}, или λ = 2 {\ displaystyle \ lambda = 2}\lambda =2и т. д. На самом деле существует бесконечное количество распределений Пуассона, которые могли сгенерировать наблюдаемых данных и с относительно небольшим количеством точек данных, мы должны быть совершенно не уверены в том, какое точное распределение Пуассона сгенерировало эти данные. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности p (x>0) {\ displaystyle p (x>0)}{\displaystyle p(x>0)} для каждого из этих распределений Пуассона, взвешенных по тому, как вероятно, каждый из них, учитывая наблюдаемые нами данные x {\ displaystyle \ mathbf {x}}\mathbf {x} .

Как правило, эта величина известна как апостериорное прогнозирующее распределение p ( х | Икс) знак равно ∫ θ п (Икс | θ) п (θ | Икс) d θ, {\ Displaystyle р (х | \ mathbf {x}) = \ int _ {\ theta} p (х | \ theta) p ( \ theta | \ mathbf {x}) d \ theta \,,}{\displaystyle p(x|\mathbf {x})=\int _{\theta }p(x|\theta)p(\theta |\mathbf {x})d\theta \,,}где x {\ displaystyle x}x- новая точка данных, x {\ displaystyle \ mathbf {x}}\mathbf {x} - это наблюдаемые данные, а θ {\ displaystyle \ theta}\theta - параметры модели. Используя теорему Байеса, мы можем разложить p (θ | x) = p (x | θ) p (θ) p (x), {\ displaystyle p (\ theta | \ mathbf {x }) = {\ frac {p (\ mathbf {x} | \ theta) p (\ theta)} {p (\ mathbf {x})}} \,,}{\displaystyle p(\theta |\mathbf {x})={\frac {p(\mathbf {x} |\theta)p(\theta)}{p(\mathbf {x})}}\,,}такой, что p (x | x) знак равно ∫ θ p (x | θ) p (x | θ) p (θ) p (x) d θ. {\ Displaystyle п (х | \ mathbf {x}) = \ int _ {\ theta} p (x | \ theta) {\ frac {p (\ mathbf {x} | \ theta) p (\ theta)} { p (\ mathbf {x})}} d \ theta \,.}{\displaystyle p(x|\mathbf {x})=\int _{\theta }p(x|\theta){\frac {p(\mathbf {x} |\theta)p(\theta)}{p(\mathbf {x})}}d\theta \,.}Обычно этот интеграл сложно вычислить. Однако, если вы выберете сопряженное предварительное распределение p (θ) {\ displaystyle p (\ theta)}p(\theta), можно получить выражение в закрытой форме. Это столбец апостериорного прогноза в таблицах ниже.

Возвращаясь к нашему примеру, если мы выберем Гамма-распределение в качестве нашего предварительного распределения по скорости распределений Пуассона, тогда апостериорным прогнозом будет отрицательное биномиальное распределение как видно из последнего столбца в таблице ниже. Гамма-распределение параметризуется двумя гиперпараметрами α, β {\ displaystyle \ alpha, \ beta}\alpha,\beta , которые мы должны выбрать. Изучая графики гамма-распределения, мы выбираем α = β = 2 {\ displaystyle \ alpha = \ beta = 2}{\displaystyle \alpha =\beta =2}, что кажется разумным предварительным значением для среднего количества автомобилей. Выбор предварительных гиперпараметров по своей сути субъективен и основан на предварительных знаниях.

Учитывая предшествующие гиперпараметры α {\ displaystyle \ alpha}\alpha и β {\ displaystyle \ beta}\beta , мы можем вычислить апостериорные гиперпараметры α ′ = α + ∑ ixi = 2 + 3 + 4 + 1 = 10 {\ textstyle \ alpha '= \ alpha + \ sum _ {i} x_ {i} = 2 + 3 + 4 + 1 = 10}{\textstyle \alpha '=\alpha +\sum _{i}x_{i}=2+3+4+1=10}и β ′ = β + n = 2 + 3 = 5 {\ textstyle \ beta '= \ beta + n = 2 + 3 = 5}{\textstyle \beta '=\beta +n=2+3=5}

Учитывая апостериорные гиперпараметры, мы, наконец, можем вычислить апостериорное предсказание p (x>0 | x) = 1 - p (x = 0 | x) = 1 - NB (0 | 10, 1 1 + 5) ≈ 0.84 {\ textstyle p (x>0 | \ mathbf {x}) = 1-p (x = 0 | \ mathbf {x}) = 1-NB \ left (0 \, | \, 10, {\ frac {1} {1 + 5}} \ right) \ приблизительно 0,84}{\textstyle p(x>0 | \ mathbf {x}) = 1-p (x = 0 | \ mathbf {x}) = 1-NB \ left (0 \, | \, 10, {\ frac {1} {1 + 5}} \ right) \ приблизительно 0.84}

Эта гораздо более консервативная оценка отражает неопределенность в параметрах модели, которая диктив учитывает.

Таблица сопряженных распределений

Пусть n обозначает количество наблюдений. Во всех приведенных ниже случаях предполагается, что данные состоят из n точек x 1,…, xn {\ displaystyle x_ {1}, \ ldots, x_ {n}}x_{1},\ldots,x_{n}(что будет случайных векторов в многомерных случаях).

Если функция правдоподобия принадлежит к экспоненциальному семейству, то существует сопряженное априорное значение, часто также в экспоненциальном семействе; см. Экспоненциальное семейство: сопряженные распределения.

Когда функция правдоподобия является дискретным распределением

ПравдоподобиеПараметры моделиСопряженное предварительное распределениеПредыдущие гиперпараметрыЗадние гиперпараметрыИнтерпретация гиперпараметровАпостериорный прогноз
Бернулли p (вероятность)Бета α, β {\ displaystyle \ alpha, \, \ бета \!}\alpha,\,\beta \!α + ∑ я знак равно 1 nxi, β + n - ∑ я = 1 nxi {\ displaystyle \ alpha + \ sum _ {i = 1} ^ {n} x_ {i}, \, \ beta + n- \ sum _ {i = 1} ^ {n} x_ {i} \!}\alpha +\sum _{i=1}^{n}x_{i},\,\beta +n-\sum _{i=1}^{n}x_{i}\!α {\ displaystyle \ alpha}\alpha успехов, β {\ displaystyle \ beta}\beta сбоиp (x ~ = 1) = α ′ α ′ + β ′ {\ displaystyle p ({\ tilde {x}} = 1) = {\ frac {\ альфа '} {\ alpha' + \ beta '}}}p({\tilde {x}}=1)={\frac {\alpha '}{\alpha '+\beta '}}
Биномиальное p (вероятность)Бета α, β {\ displaystyle \ alpha, \, \ beta \!}\alpha,\,\beta \!α + ∑ я знак равно 1 nxi, β + ∑ я знак равно 1 N N я - ∑ я знак равно 1 nxi {\ displaystyle \ alpha + \ sum _ {i = 1} ^ {n} x_ {i}, \, \ бета + \ сумма _ {i = 1} ^ {n} N_ {i} - \ sum _ {i = 1} ^ {n} x_ {i} \!}\alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!α {\ displaystyle \ alpha}\alpha успехов, β {\ displaystyle \ beta}\beta неудачBetaBin ⁡ (x ~ | α ′, β ′) {\ displaystyle \ operatorname {BetaBin} ({\ tilde {x}} | \ alpha ', \ beta')}\operatorname {BetaBin} ({\tilde {x}}|\alpha ',\beta '). (бета-бином )
Отрицательный бином. с известное число отказов, rp (вероятность)Beta α, β {\ displaystyle \ alpha, \, \ beta \!}\alpha,\,\beta \!α + ∑ i = 1 nxi, β + rn {\ displaystyle \ alpha + \ sum _ {i = 1} ^ {n} x_ {i}, \, \ beta + rn \!}\alpha +\sum _{i=1}^{n}x_{i},\,\beta +rn\!α {\ displaystyle \ alpha}\alpha общее количество успехов, β {\ displaystyle \ beta}\beta неудач (т. е. β r {\ displaystyle {\ frac {\ beta} {r}}}{\displaystyle {\frac {\beta }{r}}}эксперименты, предполагая, что r {\ displaystyle r}rостается неизменным)BetaNegBin ⁡ (x ~ | α ′, β ′) {\ displaystyle \ operatorname {BetaNegBin} ({\ tilde {x} } | \ alpha ', \ beta')}{\displaystyle \operatorname {BetaNegBin} ({\tilde {x}}|\alpha ',\beta ')}

(бета-отрицательный бином)

Пуассон λ (коэффициент)Гамма k, θ {\ displaystyle k, \, \ theta \!}k,\,\theta \!к + ∑ я знак равно 1 nxi, θ n θ + 1 {\ displaystyle k + \ sum _ {i = 1} ^ {n} x_ {i}, \ {\ frac {\ theta} {n \ theta +1}} \!}{\displaystyle k+\sum _{i=1}^{n}x_{i},\ {\frac {\theta }{n\theta +1}}\!}k {\ displaystyle k}kвсего вхождений в 1 θ {\ displaystyle {\ frac {1} {\ theta}} }{\displaystyle {\frac {1}{\theta }}}интервалыNB ⁡ (x ~ ∣ k ′, θ ′) {\ displaystyle \ operatorname {NB} \ left ({\ tilde {x}} \ mid k ', {\ theta' } \ right)}{\displaystyle \operatorname {NB} \left({\tilde {x}}\mid k',{\theta '}\right)}. (отрицательный бином )
α, β {\ displaystyle \ alpha, \, \ beta \!}\alpha,\,\beta \!α + ∑ i = 1 nxi, β + n {\ displaystyle \ alpha + \ сумма _ {i = 1} ^ {n} x_ {i}, \ \ beta + n \!}\alpha +\sum _{i=1}^{n}x_{i},\ \beta +n\!α {\ displaystyle \ alpha}\alpha всего вхождений в β {\ displaystyle \ beta}\beta интервалыNB ⁡ (x ~ ∣ α ′, 1 1 + β ′) {\ displaystyle \ operatorname {NB} \ left ({\ tilde {x}} \ mid \ alpha ', {\ frac {1} {1+ \ beta'}} \ right)}{\displaystyle \operatorname {NB} \left({\tilde {x}}\mid \alpha ',{\frac {1}{1+\beta '}}\right)}. (отрицательный бином )
Категориальный p(вектор вероятности), k (количество категорий; т.е. размер p)Дирихле α {\ displaystyle {\ boldsymbol {\ alpha}} \!}{\boldsymbol {\alpha }}\!α + (c 1,…, ck), {\ displaystyle {\ boldsymbol {\ alpha} } + (c_ {1}, \ ldots, c_ {k}),}{\displaystyle {\boldsymbol {\alpha }}+(c_{1},\ldots,c_{k}),}где ci {\ displaystyle c_ {i}}c_{i}- количество наблюдений в категории яα я {\ displaystyle \ alpha _ {i}}\alpha _{i}вхождения категории i {\ displaystyle i}ip (x ~ = i) = α i '∑ i α я 'знак равно α я + ci ∑ я α я + N {\ Displaystyle {\ begin {выровнено} p ({\ tilde {x}} = i) = {\ frac {{\ alpha _ {i}}' } {\ sum _ {i} {\ alpha _ {i}} '}} \\ = {\ frac {\ alpha _ {i} + c_ {i}} {\ sum _ {i} \ alpha _ { i} + n}} \ end {align}}}{\displaystyle {\begin{aligned}p({\tilde {x}}=i)={\frac {{\alpha _{i}}'}{\sum _{i}{\alpha _{i}}'}}\\={\frac {\alpha _{i}+c_{i}}{\sum _{i}\alpha _{i}+n}}\end{aligned}}}
Многочлен p(вектор вероятности), k (количество категорий; т. е. размер p)Дирихле α {\ displaystyle {\ boldsymbol { \ альфа}} \!}{\boldsymbol {\alpha }}\!α + ∑ я = 1 nxi {\ displaystyle {\ boldsymbol {\ alpha}} + \ sum _ {i = 1} ^ {n} \ mathbf {x} _ {i} \!}{\displaystyle {\boldsymbol {\alpha }}+\sum _{i=1}^{n}\mathbf {x} _{i}\!}α i {\ displaystyle \ alpha _ {i}}\alpha _{i}вхождения категории i {\ displaystyle i}iDirMult ⁡ (x ~ ∣ α ′) {\ displaystyle \ operatorname {DirMul t} ({\ tilde {\ mathbf {x}}} \ mid {\ boldsymbol {\ alpha}} ')}{\displaystyle \operatorname {DirMult} ({\tilde {\mathbf {x} }}\mid {\boldsymbol {\alpha }}')}. (Многочлен Дирихле )
Гипергеометрический. с известной общей численностью населения, NM (количество целевых элементов)Бета-биномиальное n = N, α, β {\ displaystyle n = N, \ alpha, \, \ beta \!}n=N,\alpha,\,\beta \!α + ∑ я знак равно 1 nxi, β + ∑ я знак равно 1 N N я - ∑ я знак равно 1 nxi {\ displaystyle \ alpha + \ sum _ {i = 1} ^ {n} x_ {i}, \, \ beta + \ sum _ {i = 1} ^ {n} N_ {i} - \ sum _ {i = 1} ^ {n} x_ {i} \!}\alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!α {\ displaystyle \ alpha}\alpha успехов, β {\ displaystyle \ beta}\beta неудач
Геометрический p0(вероятность)Beta α, β {\ displaystyle \ alpha, \, \ бета \!}\alpha,\,\beta \!α + N, β + ∑ я = 1 nxi {\ displaystyle \ alpha + n, \, \ beta + \ sum _ {i = 1} ^ {n} x_ {i} \!}\alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!α {\ displaystyle \ alpha}\alpha эксперименты, β {\ displaystyle \ beta}\beta общие отказы

Когда функция правдоподобия является непрерывным распределением

LikelihoodПараметры моделиКонъюгированное предварительное распределениеПредыдущие гиперпараметрыЗадняя гиперпа параметрыИнтерпретация гиперпараметровПрогностический прогноз
Нормальный. с известной дисперсией σμ (среднее)Нормальное μ 0, σ 0 2 {\ displaystyle \ mu _ {0}, \, \ sigma _ {0} ^ {2} \!}\mu _{0},\,\sigma _{0}^{2}\!1 1 σ 0 2 + n σ 2 (μ 0 σ 0 2 + ∑ я знак равно 1 nxi σ 2), (1 σ 0 2 + n σ 2) - 1 {\ displaystyle {\ frac {1} {{\ frac {1} {\ sigma _ {0} ^ {2}}} + {\ frac {n} {\ sigma ^ {2}}}}} \ left ({\ frac {\ mu _ {0}} {\ sigma _ {0} ^ {2}}} + {\ frac {\ сумма _ {i = 1} ^ {n} x_ {i}} {\ sigma ^ {2}}} \ right), \ left ({\ frac {1} {\ sigma _ {0} ^ {2}} } + {\ frac {n} {\ sigma ^ {2}}} \ right) ^ {- 1}}{\displaystyle {\frac {1}{{\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}}}\left({\frac {\mu _{0}}{\sigma _{0}^{2}}}+{\frac {\sum _{i=1}^{n}x_{i}}{\sigma ^{2}}}\right),\left({\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}\right)^{-1}}среднее значение было оценено на основе наблюдений с общей точностью (сумма всех индивидуальных погрешностей) 1 / σ 0 2 {\ displaystyle 1 / \ sigma _ {0} ^ {2}}1/\sigma _{0}^{2}и с выборочным средним μ 0 {\ displaystyle \ mu _ {0}}\mu _{0}N (x ~ | μ 0 ′, σ 0 2 ′ + σ 2) {\ Displaystyle {\ mathcal {N}} ({\ тильда {x}} | \ mu _ {0} ', {\ sigma _ {0} ^ {2} } '+ \ sigma ^ {2})}{\mathcal {N}}({\tilde {x}}|\mu _{0}',{\sigma _{0}^{2}}'+\sigma ^{2})
Нормальное. с известной точностью τμ (среднее)Нормальное μ 0, τ 0 {\ displaystyle \ му _ {0}, \, \ тау _ {0} \!}\mu _{0},\,\tau _{0}\!τ 0 μ 0 + τ ∑ я = 1 nxi τ 0 + n τ, τ 0 + n τ {\ displaystyle {\ frac { \ tau _ {0} \ mu _ {0} + \ tau \ sum _ {i = 1} ^ {n} x_ {i}} {\ tau _ {0} + n \ tau}}, \, \ tau _ {0} + n \ tau}{\displaystyle {\frac {\tau _{0}\mu _{0}+\tau \sum _{i=1}^{n}x_{i}}{\tau _{0}+n\tau }},\,\tau _{0}+n\tau }среднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных точности) τ 0 {\ displaystyle \ tau _ {0}}\tau _{0}и с выборочное среднее μ 0 {\ displaystyle \ mu _ {0}}\mu _{0}N (x ~ ∣ μ 0 ′, 1 τ 0 ′ + 1 τ) {\ displaystyle {\ mathcal {N}} \ left ( {\ tilde {x}} \ mid \ mu _ {0} ', {\ frac {1} {\ tau _ {0}'}} + {\ frac {1} {\ tau}} \ right)}{\displaystyle {\mathcal {N}}\left({\tilde {x}}\mid \mu _{0}',{\frac {1}{\tau _{0}'}}+{\frac {1}{\tau }}\right)}
Нормальный. с известным средним μσ (дисперсия)Обратная гамма α, β {\ displaystyle \ mathbf {\ alpha, \, \ beta}}\mathbf {\alpha,\,\beta } α + N 2, β + ∑ я знак равно 1 N (xi - μ) 2 2 {\ displaystyle \ mathbf {\ alpha} + {\ frac {n} {2}}, \, \ mathbf {\ beta} + {\ frac { \ sum _ {i = 1} ^ {n} {(x_ {i} - \ mu) ^ {2}}} {2}}}\mathbf {\alpha } +{\frac {n}{2}},\,\mathbf {\beta } +{\frac {\sum _{i=1}^{n}{(x_{i}-\mu)^{2}}}{2}}дисперсия была оценена из 2 α {\ displaystyle 2 \ alpha}2\alpha наблюдения с выборочной дисперсией β / α {\ displaystyle \ beta / \ alpha}\beta /\alpha (т.е. с суммой квадратов отклонений 2 β {\ displaystyle 2 \ beta}2\beta , где отклонения от известного среднего μ {\ displaystyle \ mu}\mu )t 2 α ′ (Икс ~ | μ, σ 2 = β ′ / α ′) {\ displaystyle t_ {2 \ alpha '} ({\ tilde {x}} | \ mu, \ sigma ^ {2} = \ beta' / \ alpha ')}t_{2\alpha '}({\tilde {x}}|\mu,\sigma ^{2}=\beta '/\alpha ')
Нормальное. с известным средним μσ (дисперсия)Масштабированный обратный хи-квадрат ν, σ 0 2 {\ displaystyle \ ню, \, \ sigma _ {0} ^ {2} \!}\nu,\,\sigma _{0}^{2}\!ν + n, ν σ 0 2 + ∑ я = 1 n (xi - μ) 2 ν + n {\ displaystyle \ nu + n, \, {\ frac {\ nu \ sigma _ {0} ^ {2} + \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} {\ nu + n}} \!}\nu +n,\,{\frac {\nu \sigma _{0}^{2}+\sum _{i=1}^{n}(x_{i}-\mu)^{2}}{\nu +n}}\!дисперсия была оценена на основе наблюдений ν {\ displaystyle \ nu}\nu с выборочной дисперсией σ 0 2 {\ displaystyle \ sigma _ {0} ^ { 2}}\sigma _{0}^{2}t ν ′ (x ~ | μ, σ 0 2 ′) {\ displaystyle t _ {\ nu '} ({\ tilde {x}} | \ mu, {\ sigma _ {0} ^ { 2}} ')}t_{\nu '}({\tilde {x}}|\mu,{\sigma _{0}^{2}}')
Нормальное. с известным средним μτ (точность)Гамма α, β {\ displaystyle \ alpha, \, \ beta \!}\alpha,\,\beta \!α + N 2, β + ∑ я знак равно 1 N (xi - μ) 2 2 {\ displaystyle \ alpha + {\ frac {n} {2}}, \, \ beta + {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} {2}} \! }\alpha +{\frac {n}{2}},\,\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu)^{2}}{2}}\!точность была оценена на основе 2 α {\ displaystyle 2 \ alpha}2\alpha наблюдений с выборочной дисперсией β / α {\ displaystyle \ beta / \ alpha}\beta /\alpha (т.е. с суммой квадратов отклонений 2 β {\ displaystyle 2 \ beta}2\beta , где отклонения от известного среднего μ {\ displaystyle \ mu}\mu )t 2 α ′ (Икс ~ ∣ μ, σ 2 = β ′ / α ′) {\ displaystyle t_ {2 \ alpha '} ({\ tilde {x}} \ mid \ mu, \ sigma ^ {2} = \ beta '/ \ alpha')}{\displaystyle t_{2\alpha '}({\tilde {x}}\mid \mu,\sigma ^{2}=\beta '/\alpha ')}
Нормальный μ и σ. Предполагая заменяемость Нормально-обратная гамма μ 0, ν, α, β {\ displaystyle \ mu _ { 0}, \, \ nu, \, \ alpha, \, \ beta}\mu _{0},\,\nu,\,\alpha,\,\beta ν μ 0 + nx ¯ ν + n, ν + n, α + n 2, {\ displaystyle {\ frac {\ nu \ mu _ {0} + n {\ bar {x}}} {\ nu + n}}, \, \ nu + n, \, \ alpha + {\ frac {n} {2}}, \,}{\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,. β + 1 2 ∑ я знак равно 1 N (xi - x ¯) 2 + n ν ν + n (x ¯ - μ 0) 2 2 {\ displaystyle \ beta + {\ tfrac {1} {2}} \ сумма _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2} + {\ frac {n \ nu} {\ nu + n}} {\ frac {( {\ bar {x}} - \ mu _ {0}) ^ {2}} {2}}}\beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}
  • x ¯ {\ displaystyle {\ bar {x}}}{\bar {x}}- образец среднее
среднее значение было оценено на основе ν {\ displaystyle \ nu}\nu наблюдений с выборочным средним μ 0 {\ displaystyle \ mu _ {0}}\mu _{0}; дисперсия была оценена на основе 2 α {\ displaystyle 2 \ alpha}2\alpha наблюдений с выборочным средним μ 0 {\ displaystyle \ mu _ {0}}\mu _{0}и суммой квадрат отклонения 2 β {\ displaystyle 2 \ beta}2\beta t 2 α ′ (x ~ ∣ μ ′, β ′ (ν ′ + 1) ν ′ α ′) {\ displaystyle t_ {2 \ alpha '} \ left ({\ tilde {x}} \ mid \ mu', {\ frac {\ beta '(\ nu' +1)} {\ nu '\ alpha'}} \ right) }{\displaystyle t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\nu '\alpha '}}\right)}
Нормальный μ и τ. Предполагая заменяемость Нормальная гамма μ 0, ν, α, β {\ displaystyle \ mu _ {0}, \, \ nu, \, \ альфа, \, \ бета}\mu _{0},\,\nu,\,\alpha,\,\beta ν μ 0 + nx ¯ ν + n, ν + n, α + n 2, {\ displaystyle {\ frac {\ nu \ mu _ {0} + n {\ bar {x}}} {\ nu + n}}, \, \ nu + n, \, \ alpha + {\ frac {n} {2}}, \,}{\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,. β + 1 2 ∑ я знак равно 1 N (xi - x ¯) 2 + n ν ν + n (x ¯ - μ 0) 2 2 {\ displaystyle \ beta + {\ tfrac {1} {2}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2} + {\ frac {n \ nu} {\ nu + n}} {\ frac {({\ bar {x}}) - \ mu _ {0}) ^ {2}} {2}}}\beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}
  • x ¯ {\ displaystyle {\ bar {x}}}{\bar {x}}- выборочное среднее.
среднее значение было оценено из ν {\ displaystyle \ nu}\nu наблюдений с выборочным средним μ 0 {\ displaystyle \ mu _ {0}}\mu _{0}, а точность оценивалась как 2 α {\ displaystyle 2 \ alpha}2\alpha наблюдения с выборочным средним μ 0 {\ displaystyle \ mu _ {0}}\mu _{0}и суммой квадратов отклонений 2 β {\ displaystyle 2 \ beta}2\beta T 2 α ′ (Икс ~ ∣ μ ′, β ′ (ν ′ + 1) α ′ ν ′) {\ Displaystyle t_ {2 \ alpha '} \ left ({\ тильда {x}} \ mid \ mu ', {\ frac {\ beta' (\ nu '+1)} {\ alpha' \ nu '}} \ right)}{\displaystyle t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\alpha '\nu '}}\right)}
Многомерный нормальный с известной ковариационной матрицей Σμ(средний вектор)Многомерный нормальный μ 0, Σ 0 {\ displaystyle {\ boldsymbol {\ boldsymbol {\ mu}}} _ {0}, \, {\ boldsymbol {\ Sigma}} _ {0}}{\boldsymbol {\boldsymbol {\mu }}}_{0},\,{\boldsymbol {\Sigma }}_{0}(Σ 0 - 1 + N Σ - 1) - 1 (Σ 0 - 1 μ 0 + n Σ - 1 x ¯), {\ displaystyle \ left ({\ boldsymbol {\ Sigma}} _ {0} ^ {- 1} + n {\ boldsymbol {\ Sigma}} ^ {- 1} \ right) ^ {- 1} \ left ({\ boldsymbol {\ Sigma}} _ {0} ^ {- 1} {\ boldsymbol {\ mu}} _ {0} + n {\ boldsymbol {\ Sigma}} ^ {- 1} \ mathbf {\ bar {x}} \ right),}\left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}\left({\boldsymbol {\Sigma }}_{0}^{-1}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Sigma }}^{-1}\mathbf {\bar {x}} \right),. (Σ 0 - 1 + n Σ - 1) - 1 {\ displaystyle \ left ({\ bolds ymbol {\ Sigma}} _ {0} ^ {- 1} + n {\ boldsymbol {\ Sigma}} ^ {- 1} \ right) ^ {- 1}}\left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}
  • x ¯ {\ displaystyle \ mathbf { \ bar {x}}}\mathbf {\bar {x}} - выборочное среднее.
среднее значение было оценено на основе наблюдений с полной точностью (сумма всех отдельных значений точности) Σ 0 - 1 {\ displaystyle {\ boldsymbol {\ \ Sigma}} _ {0} ^ {- 1}}{\boldsymbol {\Sigma }}_{0}^{-1}и с выборочным средним μ 0 {\ displaystyle {\ boldsymbol {\ mu}} _ {0}}{\boldsymbol {\mu }}_{0}N (x ~ ∣ μ 0 ′, Σ 0 ′ + Σ) {\ displaystyle {\ mathcal {N}} ({\ tilde {\ mathbf {x}}} \ mid {{\ boldsymbol {\ mu}} _ {0}} ', {{\ boldsymbol {\ Sigma}} _ {0}}' + {\ boldsymbol {\ Sigma}})}{\displaystyle {\mathcal {N}}({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{{\boldsymbol {\Sigma }}_{0}}'+{\boldsymbol {\Sigma }})}
Многомерный нормальный с известной матрицей точности Λμ(средний вектор)Многомерный нормальный μ 0, Λ 0 {\ displaystyle \ mathbf {\ boldsymbol {\ mu}} _ {0}, \, {\ boldsymbol {\ Lambda}} _ {0}}\mathbf {\boldsymbol {\mu }} _{0},\,{\boldsymbol {\Lambda }}_{0}(Λ 0 + п Λ) - 1 (Λ 0 μ 0 + N Λ Икс ¯), (Λ 0 + N Λ) {\ displaystyle \ left ({\ boldsymbol {\ Lambda}} _ {0} + n {\ boldsymbol {\ Lambda }} \ right) ^ {- 1} \ left ({\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} + n {\ boldsymbol {\ Lambda}} \ mathbf { \бар {x}} \ right), \, \ left ({\ boldsymbol {\ Lambda}} _ {0} + n {\ boldsymbol {\ Lambda}} \ right)}\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)^{-1}\left({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Lambda }}\mathbf {\bar {x}} \right),\,\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)
  • x ¯ {\ displaystyle \ mathbf { \ bar {x}}}\mathbf {\bar {x}} - выборочное среднее.
среднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных значений) Λ 0 {\ displaystyle {\ boldsymbol {\ Lambda} } _ {0}}\boldsymbol\Lambda_0и с выборочным средним μ 0 {\ displaystyle {\ boldsymbol {\ mu}} _ {0}}{\boldsymbol {\mu }}_{0}N (x ~ ∣ μ 0 ′, ( Λ 0 ′ - 1 + Λ - 1) - 1) {\ displaystyle {\ mathcal {N}} \ left ({\ tilde {\ mathbf {x}}} \ mid {{\ boldsymbol {\ mu}} _ { 0}} ', ({{{\ boldsymbol {\ Lambda}} _ {0}}'} ^ {- 1} + {\ boldsymbol {\ Lambda}} ^ {- 1}) ^ {- 1} \ right)}{\displaystyle {\mathcal {N}}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',({{{\boldsymbol {\Lambda }}_{0}}'}^{-1}+{\boldsymbol {\Lambda }}^{-1})^{-1}\right)}
Многомерный нормальный с известным средним μΣ(ковариационная матрица)Обратный-Уишарт ν, Ψ {\ displaystyle \ nu, \, {\ boldsymbol {\ Psi}}}\nu,\,{\boldsymbol {\Psi }}N + ν, Ψ + ∑ я знак равно 1 N (xi - μ) (xi - μ) T {\ displaystyle n + \ nu, \, {\ boldsymbol {\ Psi}} + \ sum _ {i = 1} ^ {n} (\ mathbf {x_ {i}} - {\ boldsymbol {\ mu}}) (\ mathbf {x_ {i}} - {\ boldsymbol {\ mu}}) ^ {T}}n+\nu,\,{\boldsymbol {\Psi }}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}ковариационная матрица оценивалась из ν {\ displaystyle \ nu}\nu наблюдения с суммой произведений попарных отклонений Ψ {\ displaystyle {\ boldsymbol {\ Psi}}}{\boldsymbol {\Psi }}t ν ′ - p + 1 ( х ~ | μ, 1 ν ′ - p + 1 Ψ ′) {\ displaystyle t _ {\ nu '-p + 1} \ left ({\ tilde {\ mathbf {x}}} | {\ boldsymbol {\ mu}}, { \ frac {1} {\ nu '-p + 1}} {\ boldsymbol {\ Psi}}' \ right)}t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}|{\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\boldsymbol {\Psi }}'\right)
Многомерный нормальный с известным средним μΛ(матрица точности)Wishart ν, V {\ Displaystyle \ Nu, \, \ mathbf {V}}\nu,\,\mathbf {V} n + ν, (V - 1 + ∑ я = 1 n (xi - μ) (xi - μ) T) - 1 {\ displaystyle n + \ nu, \, \ left (\ mathbf {V} ^ {- 1} + \ sum _ {i = 1} ^ {n} (\ mathbf {x_ {i}} - {\ boldsymbol { \ mu}}) (\ mathbf {x_ {i}} - {\ boldsymbol {\ mu}}) ^ {T} \ right) ^ {- 1}}n+\nu,\,\left(\mathbf {V} ^{-1}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}\right)^{-1}ковариационная матрица была оценена из ν { \ displaystyle \ nu}\nu наблюдения с суммой произведений попарных отклонений V - 1 {\ displaystyle \ mathbf {V} ^ {- 1}}\mathbf {V} ^{-1}t ν ′ - p + 1 (x ~ ∣ μ, 1 ν ′ - p + 1 V ′ - 1) {\ displaystyle t _ {\ nu '-p + 1} \ left ({\ tilde {\ mathbf {x}}} \ mid {\ boldsymbol {\ mu}}, {\ frac {1} {\ nu '-p + 1}} {\ mathbf {V}'} ^ {- 1} \ right)}{\displaystyle t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}\mid {\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\mathbf {V} '}^{-1}\right)}
Многомерный нормальный μ(средний вектор) и Σ (ковариационная матрица)нормальный-обратный-Уишарт μ 0, κ 0, ν 0, Ψ {\ displaystyle {\ boldsymbol {\ mu}} _ {0}, \, \ kappa _ {0}, \, \ nu _ {0}, \, {\ boldsymbol {\ Psi}}}{\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,{\boldsymbol {\Psi }}κ 0 μ 0 + nx ¯ κ 0 + N, κ 0 + n, ν 0 + n, {\ displaystyle {\ frac {\ kappa _ {0} {\ boldsymbol {\ mu}} _ {0} + n \ mathbf {\ bar {x}}} {\ kappa _ {0} + n}}, \, \ kappa _ {0} + n, \, \ nu _ {0} + n, \,}{\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,. Ψ + C + κ 0 N κ 0 + N (x ¯ - μ 0) (x ¯ - μ 0) T {\ displaystyle {\ boldsymbol {\ Psi}} + \ mathbf {C} + {\ frac {\ kappa _ { 0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} - {\boldsymbol {\mu }}_{0})^{T}}{\boldsymbol {\Psi }}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}
  • x ¯ {\displaystyle \mathbf {\bar {x}} }\mathbf {\bar {x}} is the sample mean
  • C = ∑ i = 1 n ( xi − x ¯) ( xi − x ¯) T {\displaystyle \mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} - \mathbf {\bar {x}})(\mathbf {x_{i}} -\mathbf {\bar {x}})^{T}}\mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}})(\mathbf {x_{i}} -\mathbf {\bar {x}})^{T}
mean was estimated from κ 0 {\displaystyle \kappa _{0}}\kappa _{0}observations with sample mean μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}}{\boldsymbol {\mu }}_{0}; covariance matrix was estimated from ν 0 {\displaystyle \nu _{0}}\nu _{0}observations with sample mean μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}}{\boldsymbol {\mu }}_{0}and with sum of pairwise deviation products Ψ = ν 0 Σ 0 {\displaystyle {\boldsymbol {\Psi }}=\nu _{0}{\boldsymbol {\Sigma }}_{0}}{\boldsymbol {\Psi }}=\nu _{0}{\boldsymbol {\Sigma }}_{0}t ν 0 ′ − p + 1 ( x ~ | μ 0 ′, κ 0 ′ + 1 κ 0 ′ ( ν 0 ′ − p + 1) Ψ ′) {\displaystyle t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}|{{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\boldsymbol {\Psi }}'\right)}t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}|{{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\boldsymbol {\Psi }}'\right)
Multivariate normal μ(mean vector) and Λ(precision matrix)normal-Wishart μ 0, κ 0, ν 0, V {\displaystyle {\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,\mathbf {V} }{\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,\mathbf {V} κ 0 μ 0 + n x ¯ κ 0 + n, κ 0 + n, ν 0 + n, {\displaystyle {\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,}{\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,. ( V − 1 + C + κ 0 n κ 0 + n ( x ¯ − μ 0) ( x ¯ − μ 0) T) − 1 {\displaystyle \left(\mathbf {V} ^{-1}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}\right)^{-1}}\left(\mathbf {V} ^{-1}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}\right)^{-1}
  • x ¯ {\displaystyle \mathbf {\bar {x}} }\mathbf {\bar {x}} is the sample mean
  • C = ∑ i = 1 n ( x i − x ¯) ( x i − x ¯) T {\displaystyle \mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}})(\mathbf {x_{i}} -\mathbf {\bar {x}})^{T}}\mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}})(\mathbf {x_{i}} -\mathbf {\bar {x}})^{T}
mean was estimated from κ 0 {\displaystyle \kappa _{0}}\kappa _{0}observations with sample mean μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}}{\boldsymbol {\mu }}_{0}; covariance matrix was estimated from ν 0 {\displaystyle \nu _{0}}\nu _{0}observations with sample mean μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}}{\boldsymbol {\mu }}_{0}and with sum of pairwise deviation products V − 1 {\displaystyle \mathbf {V} ^{-1}}\mathbf {V} ^{-1}t ν 0 ′ − p + 1 ( x ~ ∣ μ 0 ′, κ 0 ′ + 1 κ 0 ′ ( ν 0 ′ − p + 1) V ′ − 1) {\displaystyle t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\mathbf {V} '}^{-1}\right)}{\displaystyle t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\mathbf {V} '}^{-1}\right)}
Uniform U ( 0, θ) {\displaystyle U(0,\theta)\!}U(0,\theta)\!Pareto x m, k {\displaystyle x_{m},\,k\!}x_{m},\,k\!max { x 1, …, x n, x m }, k + n {\displaystyle \max\{\,x_{1},\ldots,x_{n},x_{\mathrm {m} }\},\,k+n\!}\max\{\,x_{1},\ldots,x_{n},x_{\mathrm {m} }\},\,k+n\!k {\displaystyle k}kobservations with maximum value x m {\displaystyle x_{m}}x_{m}
Pareto. with known minimum xmk (shape)Gamma α, β {\displaystyle \alpha,\,\beta \!}\alpha,\,\beta \!α + n, β + ∑ i = 1 n ln ⁡ x i x m {\ displaystyle \alpha +n,\,\beta +\sum _{i=1}^{n}\ln {\frac {x_{i}}{x_{\mathrm {m} }}}\!}\alpha +n,\,\beta +\sum _{i=1}^{n}\ln {\frac {x_{i}}{x_{\mathrm {m} }}}\!α {\displaystyle \alpha }\alpha observations with sum β {\displaystyle \beta }\beta of the order of magnitude of each observation (i.e. the logarithm of the ratio of each observation to the minimum x m {\displaystyle x_{m}}x_{m})
Weibull. with known shape βθ (scale)Inverse gamma a, b {\displaystyle a,b\!}a,b\!a + n, b + ∑ i = 1 n x i β {\displaystyle a+n,\,b+\sum _{i=1}^{n}x_{i}^{\beta }\!}a+n,\,b+\sum _{i=1}^{n}x_{i}^{\beta }\!a {\displaystyle a}aobservations with sum b {\displaystyle b}bof the β'th power of each observation
Log-normal Same as for the normal distribution after exponentiating the data
Exponential λ (rate)Gamma α, β {\displaystyle \alpha,\,\beta \!}\alpha,\,\beta \!α + n, β + ∑ i = 1 n x i {\displaystyle \alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!}\alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!α − 1 {\displaystyle \alpha -1}\alpha -1observations that sum to β {\displaystyle \beta }\beta Lomax ⁡ ( x ~ ∣ β ′, α ′) {\displaystyle \operatorname {Lomax} ({\tilde {x}}\mid \beta ',\alpha ')}{\displaystyle \operatorname {Lomax} ({\tilde {x}}\mid \beta ',\alpha ')}. (Lomax distribution )
Gamma. with known shape αβ (rate)Gamma α 0, β 0 {\dis playstyle \alpha _{0},\,\beta _{0}\!}\alpha _{0},\,\beta _{0}\!α 0 + n α, β 0 + ∑ i = 1 n x i {\displaystyle \alpha _{0}+n\alpha,\,\beta _{0}+\sum _{i=1}^{n}x_{i}\!}\alpha _{0}+n\alpha,\,\beta _{0}+\sum _{i=1}^{n}x_{i}\!α 0 / α {\displaystyle \alpha _{0}/\alpha }{\displaystyle \alpha _{0}/\alpha }observations with sum β 0 {\displaystyle \beta _{0}}\beta _{0}CG ⁡ ( x ~ ∣ α, α 0 ′, β 0 ′) = β ′ ⁡ ( x ~ | α, α 0 ′, 1, β 0 ′) {\displaystyle \operatorname {CG} ({\tilde {\mathbf {x} }}\mid \alpha,{\alpha _{0}}',{\beta _{0}}')=\operatorname {\beta '} ({\tilde {\mathbf {x} }}|\alpha,{\alpha _{0}}',1,{\beta _{0}}')}{\displaystyle \operatorname {CG} ({\tilde {\mathbf {x} }}\mid \alpha,{\alpha _{0}}',{\beta _{0}}')=\operatorname {\beta '} ({\tilde {\mathbf {x} }}|\alpha,{\alpha _{0}}',1,{\beta _{0}}')}
Inverse Gamma. with known shape αβ (inverse scale)Gamma α 0, β 0 {\displaystyle \alpha _{0},\,\beta _{0}\!}\alpha _{0},\,\beta _{0}\!α 0 + n α, β 0 + ∑ i = 1 n 1 x i {\displaystyle \alpha _{0}+n\alpha,\,\beta _{0}+\sum _{i=1}^{n}{\frac {1}{x_{i}}}\!}\alpha _{0}+n\alpha,\,\beta _{0}+\sum _{i=1}^{n}{\frac {1}{x_{i}}}\!α 0 / α {\displaystyle \alpha _{0}/\alpha }{\displaystyle \alpha _{0}/\alpha }observations with sum β 0 {\displaystyle \beta _{0}}\beta _{0}
Gamma. with known rate βα (shape)∝ a α − 1 β α c Γ ( α) b {\displaystyle \propto {\frac {a^{\alpha -1}\beta ^{\alpha c}}{\Gamma (\alpha)^{b}}}}\propto {\frac {a^{\alpha -1}\beta ^{\alpha c}}{\Gamma (\alpha)^{b}}}a, b, c {\displaystyle a,\,b,\,c\!}a,\,b,\,c\!a ∏ i = 1 n x i, b + n, c + n {\displaystyle a\prod _{i=1}^{n}x_{i},\,b+n,\,c+n\!}a\prod _{i=1}^{n}x_{i},\,b+n,\,c+n\!b {\displaystyle b}bor c {\displaystyle c}cobservations (b {\displaystyle b}bfor estimating α {\displaystyle \alpha }\alpha , c {\displaystyle c}cfor estimating β {\displaystyle \beta }\beta ) with product a {\displaystyle a}a
Gamma α (shape), β (inverse scale)∝ p α − 1 e − β q Γ ( α) r β − α s {\displaystyle \propto {\frac {p^{\alpha -1}e^{-\beta q}}{\Gamma (\alpha)^{r}\beta ^{-\alpha s}}}}\propto {\frac {p^{\alpha -1}e^{-\beta q}}{\Gamma (\alpha)^{r}\beta ^{-\alpha s}}}p, q, r, s {\displaystyle p,\,q,\,r,\,s\!}p,\,q,\,r,\,s\!p ∏ i = 1 n x i, q + ∑ i = 1 n x i, r + n, s + n {\displaystyle p\prod _{i=1}^{n}x_{i},\,q+\sum _{i=1}^{n}x_{i},\,r+n,\,s+n\!}p\prod _{i=1}^{n}x_{i},\,q+\sum _{i=1}^{n}x_{i},\,r+n,\,s+n\!α {\displaystyle \alpha }\alpha was estimated from r {\displaystyle r}robservations with product p {\displaystyle p}p; β {\displaystyle \beta }\beta was estimated from s {\displaystyle s}sobservations with sum q {\displaystyle q}q
See also
Notes
References
Последняя правка сделана 2021-05-15 09:38:48
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте