Экспоненциальное семейство

редактировать
Семейство распределений вероятностей, связанных с нормальным распределением

В вероятности и статистика, экспоненциальное семейство - это параметрический набор распределений вероятностей большой формы, ниже. Эта специальная форма выбрана для математического удобства, на основе некоторых полезных алгебраических свойств, а также для общности, поскольку экспоненциальные семейства в определенном смысле являются очень естественными наборами распределений для рассмотрения. Термин экспоненциальный класс иногда используется вместо «экспоненциального семейства» или более старого термина семейство Купмана - Дармуа . Термины «распределение» и «семейство» часто используются нечетко: собственно экспоненциальное семейство - это набор распределений, где конкретное распределение зависит от расписания; однако параметрическое семейство распределений часто называют «распределением» (например, «нормальное распределение», означающее «нормальное распределение»), а набор всех экспоненциальных семейств иногда вольно называют «распределением». экспоненциальная семья.

Концепция экспоненциальных семейств принадлежит Э. Дж. Г. Питман, Г. Дармуа и Б. О. Купман в 1935–1936 гг. Экспоненциальные совокупные распределители обеспечивают общую основу для выбора возможной альтернативной статистики параметрического семейства распределений в терминах естественных параметров и для определения полезной выборочной, называется естественной достаточной статистикой семьи.

Содержание

  • 1 Определение
    • 1.1 Примеры экспоненциального распределения семейств
    • 1.2 Скалярный параметр
    • 1.3 Факторизация задействованных чисел
    • 1.4 Векторный параметр
    • 1.5 Векторный параметр, его переменная
    • 1.6 Теоретико -мерная формулировка
  • 2 Интерпретация
  • 3 Свойства
  • 4 Примеры
    • 4.1 Нормальное распределение: неизвестное среднее, известная дисперсия
    • 4.2 Нормальное распределение: неизвестное среднее и неизвестная дисперсия
    • 4.3 Биномиальное распределение
  • 5 Таблица распределений
  • 6 Моменты и кумулянты достаточной статистики
    • 6.1 Нормализация распределения
    • 6.2 Момент-порождающая функция достаточной статистики
      • 6.2.1 Дифференциальные тождества для кумулянтов
      • 6.2.2 Пример 1
      • 6.2.3 Пример 2
      • 6.2.4 Пример 3
  • 7 Энтропия
    • 7.1 Относительная энтропия
    • 7.2 Максимальное вычисление энтропии
  • 8 Роль в статистике
    • 8.1 Классическая оценка: достаточно сть
    • 8.2 Байесовская оценка: сопряженные распределения
    • 8.3 Гипотеза sis тестирования: единообразно самые мощные тесты
    • 8.4 Обобщенные линейные модели
  • 9 См. также
  • 10 Сноски
  • 11 Ссылки
    • 11.1 Цитаты
    • 11.2 Источники
  • 12 Дополнительная литература
  • 13 Внешние ссылки

Определение

Большинство часто используемых распределений образуют экспоненциальное семейство или подмножество экспоненциального семейства, перечисленное в подразделе ниже. Следующие за ним группы представляют собой последовательность всех общих математических определений экспоненциального семейства. Случайный читатель может пожелать ограничить первым первым определением, которое соответствует однопараметрическому семейству дискретных или непрерывных распределений вероятностей.

Примеры экспоненциального распределения семейств

Экспоненциальные семейства среди самых распространенных распределений. Среди других экспоненциальных семейств включает следующее:

Ряд общих распределений представляют собой экспоненциальные семейства, но только тогда, когда параметры фиксированы и известны. Например:

Примечание что в каждом случае параметры, которые необходимо зафиксировать, определяют предел значений наблюдения.

Примеры общих распределений, которые не являются экспоненциальными семействами: t Стьюдента, большинство распределений смеси и даже семейство равномерных распределений, когда границы не фиксированы. См. Раздел примеров ниже для более подробного обсуждения.

Скалярный параметр

Однопараметрическое экспоненциальное семейство представляет собой набор распределений вероятностей, функция плотности вероятности (или функция массы вероятности для случая дискретного распределения ) может быть выражен в виде

е Икс (x ∣ θ) = h (x) exp [η (θ) ⋅ T (x) - A (θ)] {\ Displaystyle е_ {Икс} (х \ середина \ тета) = час (х) \, \ ехр \! {\ bigl [} \, \ эта (\ тета) \ cdot Т (х) -А (\ тета) \, {\ bigr]}}{\displaystyle f_{X}(x\mid \theta)=h(x)\,\exp \!{\bigl [}\,\eta (\theta)\cdot T(x)-A(\theta)\,{\bigr ]}}

где T (x), h (x), η (θ) и A (θ) - известные функции.

Альтернативная альтернативная форма:

f X (x ∣ θ) = h (x) g (θ) exp [η (θ) ⋅ T (x)] {\ displaystyle f_ {X} (х \ мид \ тета) = ч (х) \, д (\ тета) \, \ ехр \! {\ Bigl [} \, \ eta (\ theta) \ cdot T (x) \, {\ bigr]}}{ \ Displaystyle е_ {Икс} (х \ середина \ тета) = час (х) \, г (\ тета) \, \ ехр \! {\ bigl [} \, \ эта (\ тета) \ cdot Т (х) \, {\ bigr]}}

или эквивалентно

е Икс (х ∣ θ) = ехр [η (θ) ⋅ T (Икс) - А (θ) + В (х)] {\ Displaystyle F_ {X} (х \ середина \ тета) = \ ехр \! {\ bigl [} \, \ eta (\ theta) \ cdot T (x) -A (\ theta) + B (x) \, {\ bigr]}}{\displaystyle f_{X}(x\mid \theta)=\exp \!{\bigl [}\,\eta (\theta)\cdot T(x)-A(\theta)+B(x)\,{\bigr ]}}

Значение θ называется параметром семейства.

Кроме того, поддерживает из f X (x ∣ θ) {\ displaystyle f_ {X} \! \ Left (x \ mid \ theta \ right)}{\displaystyle f_{X}\!\left(x\mid \theta \right)}(т.е. набор всех x {\ displaystyle x}x, для которых f X (x ∣ θ) {\ displaystyle f_ {X} \! \ Left (x \ mid \ theta \ right)}{\displaystyle f_{X}\!\left(x\mid \theta \right)}больше 0) не зависит от θ {\ displaystyle \ theta}\theta . Это можно использовать, чтобы исключить параметрическое семейное распределение из экспоненциального семейства. Например, распределение Парето имеет PDF, который определен для x ≥ xm {\ displaystyle x \ geq x_ {m}}{\displaystyle x\geq x_{m}}(xm {\ displaystyle x_ {m}}x_{m}является параметром масштаба), поэтому его поддержка имеет нижний предел xm {\ displaystyle x_ {m}}{\ displaystyle x_ {m}} . Временная поддержка f α, xm (x) {\ displaystyle f _ {\ alpha, x_ {m}} \! (X)}{\displaystyle f_{\alpha,x_{m}}\!(x)}зависит от значений параметров, семейство распределений Парето не образует экспоненциальное семейство распределений.

Часто x является вектором измерений, и в этом случае T (x) может быть функция от пространства значений x до действующих чисел. В более общем смысле, η (θ) и T (x) могут быть векторнозначными, так что η ′ (θ) ⋅ T (x) {\ displaystyle \ eta '(\ theta) \ cdot T (x)}{\displaystyle \eta '(\theta)\cdot T(x)}имеет действительную стоимость.

Если η (θ) = θ, то говорят, что экспоненциальное семейство находится в канонической форме. Определив преобразованный параметр η = η (θ), всегда можно преобразовать экспоненциальное семейство в каноническую форму. Каноническая форма не уникальна, поскольку η (θ) может быть умножено на любую ненулевую константу при условии, что T (x) умножается на обратную константу, или константу может быть добавлена ​​к η (θ) и h (x), умноженное на exp [- c ⋅ T (x)] {\ displaystyle \ exp \! {\ bigl [} -c \ cdot T (x) \, {\ bigr]}}{\ displaystyle \ exp \! {\ bigl [} -c \ cdot T (x) \, {\ bigr]}} чтобы компенсировать это. В частном случае, когда η (θ) = θ и T (x) = x, тогда семейство называется своим естественным экспоненциальным семейством.

. Даже x является скаляром и есть только один параметр, η (θ) и T (x) все еще могут быть явлениями, как описано ниже.

Функция A (θ) или, что эквивалентно g (θ), определяется автоматически после выбора других функций, поскольку она должна принимать формулу, которая приводит к нормализации (суммируйте или интегрируйте в единицу по всей области). Кроме того, обе эти функции всегда могут быть записаны как функции от η, даже если η (θ) не является однозначной функцией, т.е. два или более разных значения θ на одно и то же значение. функции η (θ), а значит, η (θ) не может быть обращена. В таком случае все значения θ, отображающие одну и ту же η (θ), также будут иметь одинаковое значение для A (θ) и g (θ).

Факторизация задействованных факторов

Что важно отметить и что характеризует все варианты экспоненциального семейства, так это то, что параметр (ы) и переменная (ы) наблюдения должны факторизоваться ( может быть разделен на продукты, каждый из которых включает только один тип компонентов либо непосредственно, либо внутри любой части (основание или показатель степени) операции возведения в степень. Как правило, это означает, что все факторы, составляющие функцию плотности или массы, должны иметь одну из следующих форм:

f (x), g (θ), cf (x), cg (θ), [f (x)] c, [g (θ)] c, [f (x)] g (θ), [g (θ)] f (x), [f (x)] h (x) g (θ), или [g (θ)] час (Икс) J (θ), {\ Displaystyle F (x), g (\ theta), c ^ {f (x)}, c ^ {g (\ theta)}, {[ f (x)]} ^ {c}, {[g (\ theta)]} ^ {c}, {[f (x)]} ^ {g (\ theta)}, {[g (\ theta)] } ^ {f (x)}, {[f (x)]} ^ {h (x) g (\ theta)}, {\ text {или}} {[g (\ theta)]} ^ {h ( x) j (\ theta)},}f(x),g(\theta),c^{f(x)},c^{g(\theta)},{[f(x)]}^{c},{[g(\theta)]}^{c},{[f(x)]}^{g(\theta)},{[g(\theta)]}^{f(x)},{[f(x)]}^{h(x)g(\theta)},{\text{ or }}{[g(\theta)]}^{h(x)j(\theta)},

где f и h - произвольные функции от x; g и j - произвольные функции от θ; и c - произвольное «постоянное» выражение (т.е. выражение не содержащее x или θ).

Существуют дополнительные ограничения на количество таких факторов. Например, два выражения:

[f (x) g (θ)] h (x) j (θ), [f (x)] h (x) j (θ) [g (θ)] h (Икс) J (θ), {\ Displaystyle {[е (х) г (\ theta)]} ^ {h (x) j (\ theta)}, \ qquad {[f (x)]} ^ {h (x) j (\ theta)} [g (\ theta)] ^ {h (x) j (\ theta)},}{[f(x)g(\theta)]}^{h(x)j(\theta)},\qquad {[f(x)]}^{h(x)j(\theta)}[g(\theta)]^{h(x)j(\theta)},

одинаковы, т.е. результат двух «разрешенных» факторов. Однако при переписывании в факторизованную форму

[f (x) g (θ)] h (x) j (θ) = [f (x)] h (x) j (θ) [g (θ)] час ( Икс) J (θ) знак равно е [час (Икс) журнал ⁡ е (х)] J (θ) + час (х) [J (θ) журнал ⁡ г (θ)], {\ Displaystyle {[f ( x) g (\ theta)]} ^ {h (x) j (\ theta)} = {[f (x)]} ^ {h (x) j (\ theta)} [g (\ theta)] ^ {h (x) j (\ theta)} = e ^ {[h (x) \ log f (x)] j (\ theta) + h (x) [j (\ theta) \ log g (\ theta) ]},}{\ displaystyle {[f (x) g (\ theta)]} ^ {h (x) j (\ theta) } = {[f (x)]} ^ {h (x) j (\ theta)} [g (\ theta)] ^ {h (x) j (\ theta)} = e ^ {[h (x) \ log f (x)] j (\ theta) + h (x) [j (\ theta) \ log g (\ theta)]},}

видно, что это не может быть выражено в требуемой форме. (Такая форма является членом семейства изогнутых экспонентов, что позволяет использовать несколько факторизованных членов в экспоненте.)

Чтобы понять, почему выражение

[f (x)] g (θ) {\ displaystyle {[[ е (х)]} ^ {g (\ theta)}}{[f(x)]}^{g(\theta)}

квалифицируется,

[f (x)] g (θ) = например (θ) журнал ⁡ f (x) {\ displaystyle {[f (x)]} ^ {g (\ theta)} = e ^ {g (\ theta) \ log f (x)}}{\ displaystyle {[f (x)]} ^ {g (\ theta)} = e ^ {g (\ theta) \ log f (x)}}

и, следовательно, факторизуется внутри экспонентов. Аналогично,

[f (x)] h (x) g (θ) = eh (x) g (θ) log ⁡ f (x) = e [h (x) log ⁡ f (x)] g ( θ) {\ Displaystyle {[е (х)]} ^ {ч (х) г (\ тета)} = е ^ {ч (х) г (\ тета) \ журнал е (х)} = е ^ {[ h (x) \ log f (x)] g (\ theta)}}{\ displaystyle {[f (x)]} ^ {h (x) g ( \ theta)} = e ^ {h (x) g (\ theta) \ log f (x)} = e ^ {[h (x) \ log f (x)] g (\ theta)}}

и снова факторизуется внутри экспонентов.

Коэффициент, состоящий из суммы, в котором задействованы оба типа множителя (например, коэффициент вида 1 + f (x) g (θ) {\ displaystyle 1 + f (x) g (\ theta) }1+f(x)g(\theta)) нельзя разложить на множители таким способом (за исключением некоторых случаев, когда они присутствуют непосредственно в экспоненте); вот почему, например, распределение Коши и t-распределение Стьюдента не являются экспоненциальными семействами.

Векторный параметр

Определение в терминах одного параметра действительного числа может быть до одного действительного вектора

1 θ ≡ [θ, θ 2,…, θ s] Т. {\ Displaystyle {\ boldsymbol {\ theta}} \ Equiv \ left [\, \ theta _ {1}, \, \ theta _ {2}, \, \ ldots, \, \ theta _ {s} \, \ right] ^ {\ mathsf {T}} ~.}{\ displaystyle {\ boldsymbol {\ theta}} \ Equiv \ left [\, \ theta _ {1}, \, \ theta _ {2}, \, \ ldots, \, \ theta _ {s} \, \ right ] ^ {\ mathsf {T}} ~.}

Говорят, что семейство распределений принадлежит к семейству векторных экспонент, если функция плотности вероятности (или функция массы вероятности для дискретных распределений) может быть записана как

е Икс ( Икс ∣ θ) знак равно час (Икс) ехр ⁡ (∑ я = 1 s η я (θ) T я (х) - A (θ)), {\ Displaystyle F_ {X} (х \ середина {\ boldsymbol { \ theta}}) = h (x) \, \ exp \ left (\ sum _ {i = 1} ^ {s} \ eta _ {i} ({\ boldsymbol {\ theta}}) T_ {i} ( x) -A ({\ boldsymbol {\ theta}}) \ right) ~,}{\displaystyle f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp \left(\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(x)-A({\boldsymbol {\theta }})\right)~,}

или в более компактной форме

f X (x ∣ θ) = h (x) exp ⁡ (η (θ) ⋅ T (Икс) - А (θ)) {\ Displaystyle F_ {X} (х \ mid {\ boldsymbol {\ theta}}) = h (x) \, \ exp {\ Big (} {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (x) -A ({\ boldsymbol {\ theta}}) {\ Big)}}{\displaystyle f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\theta }}){\Big)}}

Это форма записывает сумму как скалярное п роизведение векторных функций η (θ) {\ displaystyle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}})}{\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) и T (x) { \ displaystyle \ mathbf {T} (x) \,}{\displaystyle \mathbf {T} (x)\,}.

Часто встречается альтернативная эквивалентная форма:

f X (x ∣ θ) знак равно час (Икс) г (θ) ехр ⁡ (η (θ) ⋅) T (x)) {\ displaystyle f_ {X} (x \ mid {\ boldsymbol {\ theta}}) = час (x) \, g ({\ boldsymbol {\ theta}}) \, \ exp {\ Big (} {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (x) {\ Big)}}{\ displaystyle f_ {X} (x \ mid {\ boldsymbol {\ theta}}) = h (x) \, g ({\ boldsymbol {\ theta}}) \, \ exp {\ Big (} {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (x) {\ Big)}}

Как и в скалярнозначном случае, экспоненциальное семейство называется каноническим, если

η i (θ) = θ i ∀ i. {\ displaystyle \ quad \ eta _ {i} ({\ boldsymbol {\ theta}}) = \ theta _ {i} \ quad \ forall i \,.}{\displaystyle \quad \eta _{i}({\boldsymbol {\theta }})=\theta _{i}\quad \forall i\,.}

Векторное экспоненциальное семейство называется искривленным, если размер

θ ≡ [θ 1, θ 2,…, θ d] T {\ displaystyle {\ boldsymbol {\ theta}} \ Equiv \ left [\, \ theta _ {1}, \, \ theta _ {2}, \, \ ldots, \, \ theta _ {d} \, \, \ right] ^ {\ mathsf {T}}}{\ displaystyle {\ boldsymbol { \ theta}} \ Equiv \ left [\, \ theta _ {1}, \, \ theta _ {2}, \, \ ldots, \, \ theta _ {d} \, \, \ right] ^ {\ mathsf {T}}}

меньше размерности вектора

η (θ) ≡ [η 1 (θ), η 2 (θ),…, η s (θ)] Т. {\ Displaystyle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ Equiv \ left [\, \ eta _ {1} ({\ boldsymbol {\ theta}}), \, \ eta _ {2} ({\ boldsymbol {\ theta}}), \, \ ldots, \, \ eta _ {s} ({\ boldsymbol {\ theta }}) \, \ right] ^ {\ mathsf {T}} ~.}{\displaystyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})\equiv \left[\,\eta _{1}({\boldsymbol {\theta }}),\,\eta _{2}({\boldsymbol {\theta }}),\,\ldots,\,\eta _{s}({\boldsymbol {\theta }})\,\right]^{\mathsf {T}}~.}

То есть, если размер параметров числа функций s времени параметров в приведенном выше представлении функции плотности вероятности. Наиболее распространенные распределения в экспоненциальном семействе не являются криволинейными, и многие алгоритмы, предназначенные для работы с любым экспоненциальным семейством, неявно или явно предполагают, что распределение не искривлено.

Как и в приведенном выше случае параметра со скалярным значением, функция A (θ) {\ displaystyle A ({\ boldsymbol {\ theta}})}A ({\ boldsymbol { \ theta}}) или эквивалентно g (θ) {\ displaystyle g ({\ boldsymbol {\ theta}})}g({\boldsymbol {\theta }})определяется автоматически после выбора других функций, так что все распределение нормализуется. Как указано выше, обе эти функции всегда можно записать как функции от η {\ displaystyle {\ boldsymbol {\ eta}}}{\ boldsymbol {\ eta }} Кроме независимо от формы преобразования, которое создает η {\ displaystyle {\ boldsymbol {\ eta}}}{\ boldsymbol {\ eta }} из θ {\ displaystyle {\ boldsymbol {\ theta}} \,}{\ displaystyle {\ boldsymbol {\ theta}} \,} . Следовательно, экспоненциальное семейство в его «естественной форме» (параметризованное его естественным параметром) выглядит как

f X (x ∣ η) = h (x) exp ⁡ (η ⋅ T (x) - A (η)) {\ displaystyle f_ {X} (x \ mid {\ boldsymbol {\ eta}}) = h (x) \, \ exp {\ Big (} {\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x) -A ({\ boldsymbol {\ eta}}) {\ Big)}}{\displaystyle f_{X}(x\mid {\boldsymbol {\eta }})=h(x)\,\exp {\Big (}{\boldsymbol {\eta }}\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }}){\Big)}}

или эквивалентно

f X (x ∣ η) = h (x) g (η) exp ⁡ (η ⋅ T (х)) {\ displaystyle f_ {X} (x \ mid {\ boldsymbol {\ eta}}) = h (x) \, g ({\ boldsymbol {\ eta}}) \, \ exp {\ Big (} { \ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x) {\ Big)}}{\displaystyle f_{X}(x\mid {\boldsymbol {\eta }})=h(x)\,g({\boldsymbol {\eta }})\,\exp {\Big (}{\boldsymbol {\eta }}\cdot \mathbf {T} (x){\Big)}}

Вышеупомянутые формы иногда можно увидеть с η TT (x) {\ displaystyle {\ boldsymbol {\ eta} } ^ {\ mathsf {T}} \ mathbf {T} (x)}{\displaystyle {\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)}вместо η ⋅ T (x) {\ displaystyle {\ boldsymbol {\ eta}} \ cdot \ mathbf { Т} (х) \,}{\ displaystyle {\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x) \,} . Это в эквивалентных формулировках, просто с использованием различных обозначений для вектора скалярного произведения.

с помощью функции используемой функции

Форма использования для одной случайной величины со скалярным размером может быть тривиально расширена, чтобы охватить совместное использование размера со скалярным размером по вектору случайных величин. Результирующее распределение просто то же самое, что и вышеупомянутое распределение для случайной величины со скалярными значениями, где каждое вхождение скаляра x заменено вектором

x = (x 1, x 2, ⋯, xk) T. {\ displaystyle \ mathbf {x } = \ left (x_ {1}, x_ {2}, \ cdots, x_ {k} \ right) ^ {\ mathsf {T}} ~.}{\displaystyle \mathbf {x} =\left(x_{1},x_{2},\cdots,x_{k}\right)^{\mathsf {T}}~.}

Размер k случайная величина не обязательно должна соответствовать размерности d вектора параметров или (в случае изогнутой экспоненциальной функции) размерности s естественного параметра η {\ displaystyle {\ boldsymbol {\ eta}}}{\ boldsymbol {\ eta }} и достаточная статистика T(x).

Распределение в этом случае записывается как

f X (x ∣ θ) = h (x) exp (∑ i = 1 s η i (θ) T i (x) - A (θ)) {\ displaystyle f_ {X} \! \ left (\ mathbf {x} \ mid {\ boldsymbol {\ theta}} \ right) = h (\ mathbf {x}) \, \ exp \! \ left (\, \ sum _ {i = 1} ^ {s} \ eta _ {i} ({\ boldsymbol {\ theta}}) T_ {i} (\ mathbf {x}) -A ({\ boldsymbol {\ theta}}) \, \ right)}{\displaystyle f_{X}\!\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)=h(\mathbf {x})\,\exp \!\left(\,\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(\mathbf {x})-A({\boldsymbol {\theta }})\,\right)}

Или, более компактно,

f X (x ∣ θ) = h (x) exp (η (θ) ⋅ T (x) - A (θ)) {\ displaystyle f_ {X} \! \ left (\, \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = h (\ mathbf {x}) \, \ exp \! {\ Big (} \, {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (\ mathbf {x}) -A ({\ boldsymbol {\ theta}}) \, {\ Big)}}{\ displaystyle f_ {X} \! \ left (\, \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = h (\ mathbf {x}) \, \ exp \! {\ Big (} \, {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (\ mathbf {x}) -A ({\ boldsymbol {\ theta}}) \, {\ Big)}}

Или, альтернативно, как

f X (x ∣ θ) = g (θ) h (x) exp (η (θ) ⋅ T (x)) {\ displaystyle f_ {X} \! \ left (\, \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = g ({\ boldsymbol {\ theta}}) \; h (\ mathbf {x}) \, \ exp \! {\ Big (} \, {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (\ mathbf {x}) \, {\ Big)}}{\displaystyle f_{X}\!\left(\,\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=g({\boldsymbol {\theta }})\;h(\mathbf {x})\,\exp \!{\Big (}\,{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x})\,{\Big)}}

Я Теоретико-математическая формулировка

Мы используем кумулятивные функции распределения (CDF), чтобы охватить как дискретные, так и непрерывные распределения.

Предположим, H - неубывающая функция действительной переменной. Тогда интегралы Лебега - Стилтьеса относительно d H (x) {\ displaystyle {\ rm {d \,}} H (\ mathbf {x})}{\displaystyle {\rm {d\,}}H(\mathbf {x})}равны интегралы относительно эталонной меры экспоненциального семейства, порожденного H.

Любой член этого экспоненциального семейства кумулятивную функцию распределения

d F (x ∣ θ) = exp ⁡ (η (θ) ⋅ T (x) - A (θ))) d H (x). {\ displaystyle {\ rm {d \,}} F \ left (\, \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = \ exp {\ bigl (} \, {\ boldsymbol {\ eta}} (\ theta) \ cdot \ mathbf {T} (\ mathbf {x}) \, - \, A ({\ boldsymbol {\ theta}}) \, {\ bigr)} ~ {\ rm {d \,}} H (\ mathbf {x}) ~.}{\ displaystyle {\ rm {d \, }} F \ left (\, \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = \ exp {\ bigl (} \, {\ boldsymbol {\ eta}} (\ theta) \ cdot \ mathbf {T} (\ mathbf {x}) \, - \, A ({\ boldsymbol {\ the ta}}) \, {\ bigr)} ~ {\ rm {d \,}} H (\ mathbf {x}) ~.}

. H (x) - интегратор Лебега - Стилтьеса для эталонной меры. Когда эталонная мера конечна, она может быть нормализована, и фактически является кумулятивной функцией распределения распределения вероятностей. Если F абсолютно непрерывна с плотностью F (X) {\ displaystyle F (X)}f(x)по отношению к эталонной мере дх {\ displaystyle \, {\ тт {г \,}} x \,}{\displaystyle \,{\rm {d\,}}x\,}(обычно мера Лебега ), можно записать d F (x) = f (x) dx {\ displaystyle \, {\ rm {d \, }} F (x) = f (x) ~ {\ rm {d \,}} x \,}{\displaystyle \,{\rm {d\,}}F(x)=f(x)~{\rm {d\,}}x\,}. В этом случае H также является абсолютно непрерывным и может быть записано как d H (x) = h (x) dx {\ displaystyle \, {\ rm {d \,}} H (x) = h (x) \, {\ rm {d \,}} x \,}{\displaystyle \,{\rm {d\,}}H(x)=h(x)\,{\rm {d\,}}x\,}, поэтому формулы сводятся к формулам из предыдущих абзацев. Если F дискретно, то H - это ступенчатая функция (с шагами на поддержке F).

В качестве альтернативы мы можем записать вероятностную меру напрямую как

P (d x ∣ θ) = exp ⁡ (η (θ) ⋅ T (x)- A (θ)) μ (d x). {\ Displaystyle P \ left (\, {\ rm {d \,}} \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = \ exp {\ bigl (} \, {\ boldsymbol {\ eta}} (\ theta) \ cdot \ mathbf {T} (\ mathbf {x}) -A ({\ boldsymbol {\ theta}}) \, {\ bigr)} ~ \ mu ({\ rm {d \,}} \ mathbf {x}) ~.}{\displaystyle P\left(\,{\rm {d\,}}\mathbf {x} \mid {\boldsymbol {\theta }}\,\right)=\exp {\bigl (}\,{\boldsymbol {\eta }}(\theta)\cdot \mathbf {T} (\mathbf {x})-A({\boldsymbol {\theta }})\,{\bigr)}~\mu ({\rm {d\,}}\mathbf {x})~.}

для некоторой эталонной меры μ {\ displaystyle \ mu \,}\mu \,.

Интерпретация

В определениях выше функции T ( x), η (θ) и A (η), по-видимому, определенно произвольно. Используя эти возможности, пользуйтесь преимуществами.

  • T (x) - достаточная статистика распределения. Для экспоненциальных семействующих показателей является функция данных, которые содержат всю информацию, предоставленную информацию x относительно неизвестных значений параметров. Это означает, что для любых наборов данных x {\ displaystyle x}xи y {\ displaystyle y}y отношение правдоподобия такое же (то есть е (Икс; θ 1) е (Икс; θ 2) = е (Y; θ 1) f (y; θ 2)) {\ Displaystyle \ left ({\ mathsf {\ text {то есть}}} {\ frac {f (x; \ theta _ {1})} {f (x; \ theta _ {2})}} = {\ frac {f (y; \ theta _ {1})} {f (y; \ theta _ {2})}} \, \ right)}{\displaystyle \left({\mathsf {\text{that is, }}}{\frac {f(x;\theta _{1})}{f(x;\theta _{2})}}={\frac {f(y;\theta _{1})}{f(y;\theta _{2})}}\,\right)}, если T (x) = T (y). Это, даже если x и y совершенно различны, то есть даже если d (x, y)>0 {\ displaystyle d (x, y)>0 \,}{\displaystyle d(x,y)>0 \,} . T (x) равно количеству параметров Достаточная статистика набора независимых одинаково распределенных данных наблюдений - это просто сумма отдельных статистических данных, инкапсулирующая всю информацию, для спецификации апостериорного распределения параметров с учетом данных (и, следовательно, для получения любой желаемой оценки параметров) (это важное обсуждается дополнительно.)
  • η называется естественным параметром. Набор значений η, для которых функция f X ( x; θ) {\ displaystyle f_ {X} (x; \ theta)}f_{X}(x;\theta)конечна называется естественным пространством пара метров. Можно показать, что естественное пространство параметров всегда выпуклое.
  • A (η) называется статистической суммой log- , потому что это логарифм от коэффициент нормализации, без которого f X (x; θ) {\ displaystyle f_ {X} (x; \ theta)}f_{X}(x;\theta)не было бы распределением вероятностей:
A (η) знак равно журнал ⁡ (∫ Икс час (Икс) ехр ⁡ (η (θ) ⋅ T (x)) dx) {\ Displaystyle A (\ eta) = \ log \ left (\ int _ {X} час (x) \, \ exp (\ eta (\ theta) \ cdot T (x)) \, \ mathrm {d \,} x \ right)}{\ displaystyle A (\ eta) = \ log \ left (\ int _ {X} h (x) \, \ exp (\ eta (\ theta) \ cdot T (x)) \, \ mathrm {d \,} x \ right)}

Функция A важна сама по себе, потому что среднее, дисперсия и другие моменты достаточной статистики T (x) могут быть получены дифференцированием A (η). Например, поскольку log (x) является одним из компонентов достаточной статистики гамма-распределения, E ⁡ [log ⁡ x] {\ displaystyle \ operatorname {\ mathcal {E}} [\ log x] }{\displaystyle \operatorname {\mathcal {E}} [\log x]}можно легко определить для этого распределения с помощью A (η). Технически это так, потому что

К (u ∣ η) = A (η + u) - A (η), {\ displaystyle K \ left (u \ mid \ eta \ right) = A (\ eta + u) -A (\ eta) \,,}{\displaystyle K\left(u\mid \eta \right)=A(\eta +u)-A(\eta)\,,}

- кумулянтная производящая функция достаточной статистики.

Свойства

Экспоненциальные семейства имеют большое количество свойств, которые делают их очень полезными для статистического анализа. Во многих случаях можно показать, что эти свойства обладают только экспоненциальными семействами. Примеры:

Примеры

Это критично, когда рассматривая примеры в этом разделе, чтобы вспомнить вышеупомянутое обсуждение, что означает сказать, что «распределение» экспоненциальным семейством, в частности, иметь в виду, что набор параметров, которые могут изменяться, имеет решающее значение для определения того, является ли «распределение» является или является экспоненциальным семейством.

нормальный, экспоненциальный, логнормальный, гамма, хи-квадрат, бета, Дирихле, Бернулли, категориальный, Пуассон, геометрический, обратное гауссово, распределения фон Мизеса и распределения фон Мизеса-Фишера - все это экспоненциальные семейства.

Некоторые из их параметров остаются неизменными. Семейство распределений Парето с фиксированной минимальной границей x м m образуют экспоненциальное семейство. Семейства биномиальных и полиномиальных распределений с фиксированным числом чисел n, но неизвестным параметром (ами) вероятности являются экспоненциальными семействами. Семейство отрицательных биномиальных распределений с фиксированным численным отказов (он же параметр времени остановки) r является экспоненциальным семейством. Однако, когда любой из вышеупомянутых фиксированных параметров может изменяться, результирующее семейство является экспоненциальным семейством.

Как упоминалось выше, как правило, поддержка экспоненциального семейства должна оставаться одинаковой для всех параметров в семействе. Вот почему вышеупомянутые случаи (например, биномиальные с переменными испытаниями, Парето с меняющейся минимальной границей) не являются экспоненциальными семействами - во всех случаях параметр влияет на поддержку (в частности, изменение минимального или максимального возможного значения). По аналогичным причинам ни непрерывное равномерное распределение, ни непрерывное равномерное распределение не являются экспоненциальными семействами, поскольку одна или обе границы меняются. Если обе границы остаются фиксированными, результатом будет одно распределение; это можно рассматривать как нульмерное экспоненциальное семейство, и это единственное нульмерное экспоненциальное семейство с заданным носителем.

Распределение Вейбулла с фиксированным параметром формы k экспоненциальным семейством. В отличие от предыдущих примеров, параметр не влияет на опору; тот факт, что возможность его изменения показатель Вейбулла неэкспоненциальным, связан, скорее, с формой функции плотности вероятности Вейбулла (k появляется в показателе экспоненты).

В общем случае распределения, которые являются результатом конечной или бесконечной смеси других распределений, модели смесей плотности и составные распределения вероятностей не являются экспоненциальными семействами. Примерами являются типичные гауссовские модели , смеси, а также множество распределений с тяжелыми хвостами, которые возникают в результате сложения (т. Е. Бесконечного перемешивания) распределения с априорным распределением . по одному из его параметров, например t-распределение Стьюдента (составляющее нормальное распределение с предшествующей точностью с гамма-распределением ) и бета- биномиальное и Полиномиальные распределения Дирихле. Другими примерами распределений, которые не являются экспоненциальными семействами, являются F-распределение, распределение Коши, гипергеометрическое распределение и логистическое распределение.

. подробные примеры представлений некоторых полезных распределений в виде экспоненциальных семейств.

Нормальное распределение: неизвестное среднее значение, известная дисперсия

В качестве первого примера рассмотрим случайную переменную, распределенную нормально с неизвестным средним средним μ и известной дисперсией σ. Функция плотности вероятности тогда

f σ (x; μ) = 1 2 π σ 2 e - (x - μ) 2 / (2 σ 2). {\ displaystyle f _ {\ sigma} (x; \ mu) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- (x- \ mu) ^ { 2} / (2 \ sigma ^ {2})}.}{\displaystyle f_{\sigma }(x;\mu)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(x-\mu)^{2}/(2\sigma ^{2})}.}

Это однопараметрическое экспоненциальное семейство, что можно увидеть, задав

h σ (x) = 1 2 π σ 2 e - x 2 / (2 σ 2) T σ (x) = x σ A σ (μ) = μ 2 2 σ 2 η σ (μ) = μ σ. {\ displaystyle {\ begin {align} h _ {\ sigma} (x) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- x ^ {2 } / (2 \ sigma ^ {2})} \\ [4pt] T _ {\ sigma} (x) = {\ frac {x} {\ sigma}} \\ [4pt] A _ {\ sigma} (\ mu) = {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}} \\ [4pt] \ eta _ {\ sigma} (\ mu) = {\ frac {\ mu} {\ sigma}}. \ end {align}}}{\displaystyle {\begin{aligned}h_{\sigma }(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-x^{2}/(2\sigma ^{2})}\\[4pt]T_{\sigma }(x)={\frac {x}{\sigma }}\\[4pt]A_{\sigma }(\mu)={\frac {\mu ^{2}}{2\sigma ^{2}}}\\[4pt]\eta _{\sigma }(\mu)={\frac {\mu }{\sigma }}.\end{aligned}}}

Если σ = 1, это в канонической форме, так как тогда η (μ) = μ.

Нормальное распределение: неизвестное среднее значение и неизвестная дисперсия

Затем рассмотрим случай нормального распределения с неизвестным средним и неизвестной дисперсией. Тогда функция плотности вероятности будет

f (x; μ, σ) = 1 2 π σ 2 e - (x - μ) 2 2 σ 2. {\ displaystyle f (x; \ mu, \ sigma) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- {\ frac {(x- \ mu) ^ {2}} {2 \ sigma ^ {2}}}}.}f (x; \ mu, \ sigma) = {\ frac {1} {\ sqrt {2 \ pi \ sigma) ^ {2}}}} e ^ {- {\ frac {(x- \ mu) ^ {2}} {2 \ sigma ^ {2}}}}.

Это экспоненциальное семейство, которое можно записать в канонической форме, определив

η = [μ σ 2, - 1 2 σ 2] T h (x) = 1 2 π T (x) = (x, x 2) TA (η) = µ 2 2 σ 2 + log ⁡ | σ | = - η 1 2 4 η 2 + 1 2 журнал ⁡ | 1 2 η 2 | {\ displaystyle {\ begin {align} {\ boldsymbol {\ eta}} = \ left [\, {\ frac {\ mu} {\ sigma ^ {2}}}, ~ - {\ frac {1} { 2 \ sigma ^ {2}}} \, \ right] ^ {\ mathsf {T}} \\ h (x) = {\ frac {1} {\ sqrt {2 \ pi}}} \\ T ( x) = \ left (x, x ^ {2} \ right) ^ {\ rm {T}} \\ A ({\ boldsymbol {\ eta}}) = {\ frac {\ mu ^ {2} } {2 \ sigma ^ {2}}} + \ log | \ сигма | = - {\ frac {\ eta _ {1} ^ {2}} {4 \ eta _ {2}}} + {\ frac {1} {2}} \ log \ left | {\ frac {1} {2 \ eta _ {2}}} \ right | \ end {align}}}{\displaystyle {\begin{aligned}{\boldsymbol {\eta }}=\left[\,{\frac {\mu }{\sigma ^{2}}},~-{\frac {1}{2\sigma ^{2}}}\,\right]^{\mathsf {T}}\\h(x)={\frac {1}{\sqrt {2\pi }}}\\T(x)=\left(x,x^{2}\right)^{\rm {T}}\\A({\boldsymbol {\eta }})={\frac {\mu ^{2}}{2\sigma ^{2}}}+\log |\sigma |=-{\frac {\eta _{1}^{2}}{4\eta _{2}}}+{\frac {1}{2}}\log \left|{\frac {1}{2\eta _{2}}}\right|\end{aligned}}}

Биномиальное распределение

Как В качестве дискретного экспоненциального семейства рассмотрим биномиальное распределение с общепринятыми испытаниями n. функция массы вероятности для этого распределения равна

f (x) = (n x) p x (1 - p) n - x, x ∈ {0, 1, 2,…, n}. {\ displaystyle f (x) = {n \ choose x} p ^ {x} (1-p) ^ {nx}, \ quad x \ in \ {0,1,2, \ ldots, n \}.}f(x)={n \choose x}p^{x}(1-p)^{n-x},\quad x\in \{0,1,2,\ldots,n\}.

Это может быть эквивалентно записано как

f (x) = (nx) exp ⁡ (x log ⁡ (p 1 - p) + n log ⁡ (1 - p)), {\ displaystyle f (x) = {n \ выбрать x} \ exp \ left (x \ log \ left ({\ frac {p} {1-p}} \ right) + n \ log (1-p) \ right),}f(x)={n \choose x}\exp \left(x\log \left({\frac {p}{1-p}}\right)+n\log(1-p)\right),

что показывает, что биномиальное распределение является экспоненциальным семейством, естественный параметр которого равенство

η = log ⁡ p 1 - p. {\ displaystyle \ eta = \ log {\ frac {p} {1-p}}.}\eta =\log {\frac {p}{1-p}}.

Эта функция p известна как logit.

Таблица распределений

Следующие В таблице показано, как переписать ряд распределений как распределения экспоненциального семейства с естественными включениями. Обратитесь к карточкам для получения информации об основных экспоненциальных семьях.

Для скалярной модели и скалярного варианта форма имеет следующий вид:

f X (x ∣ θ) = h (x) exp ⁡ (η (θ) T (x) - A (η))) {\ Displaystyle F_ {X} (х \ середина \ тета) = час (х) \ ехр {\ Big (} \ eta ({\ theta}) T (x) -A ({\ eta}) {\ Big) }}{\ displaystyle f_ {X} (x \ mid \ theta) = h (x) \ exp {\ Big ( } \ eta ({\ theta}) T (x) -A ({\ eta}) {\ Big)}}

Для скалярной переменной и векторного параметра:

f X (x ∣ θ) = h (x) exp ⁡ (η (θ) ⋅ T (x) - A (η)) {\ displaystyle f_ {X} (x \ mid {\ boldsymbol {\ theta}}) = h (x) \ exp {\ Big (} {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (x) -A ({\ boldsymbol {\ eta}}) {\ Big)}}f_ {X} ( x \ mid {\ boldsymbol {\ theta}}) = h (x) \ exp {\ Big (} {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} ( х) -A ({\ boldsymbol {\ eta}}) {\ Big)}
f X (x ∣ θ) = h (x) g (θ) exp ⁡ (η (θ) ⋅ T (Икс)) {\ Displaystyle F_ {X} (х \ mid {\ boldsymbol {\ theta}}) = h (x) g ({\ boldsymbol {\ theta}}) \ exp {\ Big (} { \ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (x) {\ Big)}}f_{X}(x\mid {\boldsymbol {\theta }})=h(x)g({\boldsymbol {\theta }})\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x){\Big)}

Для векторной переменной и векторного параметра:

f X ( Икс ∣ θ) знак равно час (Икс) ехр ⁡ (η (θ) ⋅ T (x) - A (η)) {\ Displaystyle f_ {X} (\ mathbf {x} \ mid {\ boldsymbol {\ theta}}) = h (\ mathbf {x}) \ exp {\ Big (} {\ boldsy mbol {\ eta}} ({\ bo ldsymbol {\ theta}}) \ cdot \ mathbf {T} (\ mathbf {x}) -A ({\ boldsymbol {\ eta}}) {\ Big)}}f_{X}(\mathbf {x} \mid {\boldsymbol {\theta }})=h(\mathbf {x})\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x})-A({\boldsymbol {\eta }}){\Big)}

Приведенные выше формулы выбирают функциональную форму экспоненциального семейства с логарифмической функцией распределения A (η) {\ displaystyle A ({\ boldsymbol {\ eta}})}A ({\ boldsymbol {\ eta}}) . Причина этого в том, что моменты достаточной статистики можно легко вычислить, просто дифференцируя эту функцию. Альтернативные формы включают параметризацию этой функции с помощью обычного параметра θ {\ displaystyle {\ boldsymbol {\ theta}}}{\ boldsymbol {\ theta}} вместо естественного параметра и / или с использованием коэффициента g (η) {\ displaystyle g ({\ boldsymbol {\ eta}})}g({\boldsymbol {\eta }})вне экспоненты. Связь между последним и первым такова:

A (η) = - log ⁡ g (η) {\ displaystyle A ({\ boldsymbol {\ eta}}) = - \ log g ({\ boldsymbol {\ eta}})}{\ displaystyle A ({\ boldsymbol {\ eta}}) = - \ log g ({\ boldsymbol {\ eta}})}
г (η) = е - A (η) {\ displaystyle g ({\ boldsymbol {\ eta}}) = e ^ {- A ({\ boldsymbol {\ eta}})} }g ({\ boldsymbol {\ eta}}) = e ^ {- A ({\ boldsymbol {\ eta}})}

Для преобразования между представлениями, включающими два типа параметров, используйте приведенные ниже формулы для записи одного типа параметра в терминах другого.

РаспределениеПараметр (ы) θ {\ displaystyle {\ boldsymbol {\ theta}}}{\ boldsymbol {\ theta}} Естественный параметр (ы) η {\ displaystyle {\ boldsymbol {\ eta}}}{\ boldsymbol {\ eta }} Обратное отображение параметровБазовая мера h (x) {\ displaystyle h (x)}h(x)Достаточная статистика T (x) {\ displaystyle T ( x)}T(x)Раздел журнала A (η) {\ displaystyle A ({\ boldsymbol {\ eta}})}A ({\ boldsymbol {\ eta}}) Раздел журнала A (θ) {\ displaystyle A ({ \ boldsymbol {\ theta}})}A ({\ boldsymbol { \ theta}})
Распределение Бернулли p {\ displaystyle p}plog ⁡ p 1 - p {\ displaystyle \ log {\ frac {p} {1-p}}}{\displaystyle \log {\frac {p}{1-p}}}1 1 + e - η = e η 1 + e η {\ displaystyle {\ frac {1} {1 + e ^ {- \ eta}}} = { \ frac {e ^ {\ eta}} {1 + e ^ {\ eta}}}}{\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}1 {\ displaystyle 1}1x {\ displaystyle x }xжурнал ⁡ (1 + е η) {\ displaystyle \ log (1 + e ^ {\ eta})}{\ displaystyle \ log (1 + e ^ {\ eta})} - журнал ⁡ (1 - p) {\ displaystyle - \ log (1-p) }{\displaystyle -\log(1-p)}
биномиальное распределение. с известным количеством испытаний n {\ displayst y le n}np {\ displaystyle p}plog ⁡ p 1 - p {\ displaystyle \ log {\ frac {p} {1-p}}}{\displaystyle \log {\frac {p}{1-p}}}1 1 + e - η = е η 1 + е η {\ displaystyle {\ frac {1} {1 + e ^ {- \ eta}}} = {\ frac {e ^ {\ eta}} {1 + e ^ {\ eta}}} }{\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}(nx) {\ displaystyle {n \ choose x}}{n \choose x}x {\ displaystyle x}xn log ⁡ (1 + e η) {\ displaystyle n \ log (1 + e ^ { \ eta})}{\displaystyle n\log(1+e^{\eta })}- n журнал ⁡ (1 - p) {\ displaystyle -n \ log (1-p)}{\displaystyle -n\log(1-p)}
распределение Пуассона λ {\ displaystyle \ lambda}\lambda log log λ {\ displaystyle \ log \ lambda}{\displaystyle \log \lambda }e η {\ displaystyle e ^ {\ eta}}e ^ {\ eta} 1 x! {\ displaystyle {\ frac {1} {x!}}}{\frac {1}{x!}}x {\ displaystyle x}xe η {\ displaystyle e ^ {\ eta}}e ^ {\ eta} λ {\ displaystyle \ lambda}\lambda
отрицательное биномиальное распределение. с известным числом отказов r {\ displaystyle r}rp {\ displaystyle p}plog ⁡ p {\ displaystyle \ log p}\log pе η {\ displaystyle e ^ {\ eta}}e ^ {\ eta} (x + r - 1 x) {\ displaystyle {x + r-1 \ choose x}}{x+r-1 \choose x}x {\ displaystyle x}x- р журнал ⁡ (1 - е η) {\ Displaystyle -r \ журнал (1-е ^ {\ eta})}{\displaystyle -r\log(1-e^{\eta })}- г журнал ⁡ (1 - p) {\ displaystyle -r \ log (1-p)}{\displaystyle -r\log(1-p)}
экспоненциальное распределение λ {\ displaystyle \ lambda}\lambda - λ {\ displaystyle - \ lambda}- \ lambda - η {\ displaystyle - \ eta}- \ eta 1 {\ displaystyle 1}1икс {\ displaystyle x}x- журнал ⁡ (- η) {\ displaystyle - \ log (- \ eta)}{\displaystyle -\log(-\eta)}- журнал ⁡ λ {\ displaystyle - \ log \ lambda}{\displaystyle -\log \lambda }
Распределение Парето. с известным минимальным значением xm {\ displaystyle x_ {m}}x_{m}α {\ displaystyle \ alpha}\alpha - α - 1 {\ displaystyle - \ alpha -1}- \ alpha -1 - 1 - η {\ Displaystyle -1- \ eta}-1-\eta 1 {\ displaystyle 1}1журнал ⁡ x {\ displaystyle \ log x}{\displaystyle \log x}- журнал ⁡ (- 1 - η) + (1 + η) журнал ⁡ xm { \ displaystyle - \ log (-1- \ eta) + (1+ \ eta) \ log x _ {\ mathrm {m}}}{\displaystyle -\log(-1-\eta)+(1+\eta)\log x_{\mathrm {m} }}- log ⁡ α - α log ⁡ xm {\ displaystyle - \ log \ alpha - \ alpha \ log x _ {\ mathrm {m}}}{\displaystyle -\log \alpha -\alpha \log x_{\mathrm {m} }}
распределение Вейбулла. с формой kλ {\ displaystyle \ lambda}\lambda - 1 λ k {\ displaystyle - {\ frac {1} {\ lambda ^ {k}}}}-{\frac {1}{\lambda ^{k}}}(- η) - 1 к {\ displaystyle (- \ eta) ^ {- {\ frac {1} {k}}}}{\displaystyle (-\eta)^{-{\frac {1}{k}}}}xk - 1 {\ displaystyle x ^ {k-1}}x^{k-1}xk {\ displaystyle x ^ {k}}x^{k}- журнал ⁡ (- η) - журнал ⁡ К {\ Displaystyle - \ журнал (- \ eta) - \ журнал k}{\displaystyle -\log(-\eta)-\log k}журнал ⁡ λ - журнал ⁡ К {\ Displaystyle к \ журнал \ лямбда - \ log k}{\displaystyle k\log \lambda -\log k}
распределение Лапласа. с известным средним μ {\ displaystyle \ mu}\mu b {\ displaystyle b}b- 1 b {\ displaystyle - {\ frac {1} {b}}}-{\frac {1}{b}}- 1 η {\ displaystyle - {\ гидроразрыв {1} {\ eta}}}-{\frac {1}{\eta }}1 {\ displaystyle 1}1| x - μ | {\ displaystyle | x- \ mu |}|x-\mu |журнал ⁡ (- 2 η) {\ displaystyle \ log \ left (- {\ frac {2} {\ eta}} \ right)}{\ displaystyle \ log \ left (- {\ frac {2} {\ eta}} \ right)} журнал ⁡ 2 b {\ displaystyle \ log 2b}{\displaystyle \log 2b}
распределение хи-квадрат ν {\ displaystyle \ nu}\nu ν 2 - 1 {\ displaystyle {\ frac {\ nu} {2}} - 1}{\frac {\nu }{2}}-12 ( η + 1) {\ displaystyle 2 (\ eta +1)}2(\eta +1)e - x 2 {\ displaystyle e ^ {- {\ frac {x} {2}}}}e^{-{\frac {x}{2}}}журнал ⁡ Икс {\ Displaystyle \ журнал x}{\displaystyle \log x}журнал ⁡ Γ (η + 1) + (η + 1) журнал ⁡ 2 {\ displaystyle \ log \ Gamma (\ eta +1) + (\ eta +1) \ log 2}{\ displaystyle \ log \ Gamma (\ eta +1) + (\ eta +1) \ log 2} журнал ⁡ Γ (ν 2) + ν 2 журнал ⁡ 2 {\ displaystyle \ log \ Gamma \ left ({\ frac {\ nu} {2}} \ right) + {\ frac {\ nu} {2}} \ log 2}{\ displaystyle \ log \ Gamma \ left ({\ frac {\ nu} {2}} \ right) + {\ frac {\ nu} {2}} \ log 2}
нормальное распределение. известная дисперсияμ {\ displaystyle \ mu}\mu μ σ {\ displaystyle {\ frac {\ mu} {\ sigma}}}{\ frac {\ mu} {\ sigma}} σ η {\ Displaystyle \ sigma \ eta}\ sigma \ eta е - x 2 2 σ 2 2 π σ {\ displaystyle {\ frac {e ^ {- {\ frac {x ^ {2}} {2 \ sigma ^ {2}}}}} {{\ sqrt {2 \ pi}} \ sigma}}}{\displaystyle {\frac {e^{-{\frac {x^{2}}{2\sigma ^{2}}}}}{{\sqrt {2\pi }}\sigma }}}х σ {\ displaystyle {\ frac {x} {\ sigma}}}{\frac {x}{\sigma }}η 2 2 {\ displaystyle {\ frac {\ eta ^ {2}} {2}}}{\frac {\eta ^{2}}{2}}μ 2 2 σ 2 {\ displayst yle {\ frac { \ mu ^ {2}} {2 \ sigma ^ {2}}}}{\frac {\mu ^{2}}{2\sigma ^{2}}}
непрерывное распределение Бернулли λ {\ displaystyle \ lambda}\lambda log ⁡ λ 1 - λ {\ displaystyle \ log {\ гидроразрыв {\ lambda} {1- \ lambda}}}{\ displaystyle \ log {\ frac { \ lambda} {1- \ lambda}}} е η 1 + e η {\ displaystyle {\ frac {e ^ {\ eta}} {1 + e ^ {\ eta}}}}{\displaystyle {\frac {e^{\eta }}{1+e^{\eta }}}}1 {\ displaystyle 1}1x {\ displaystyle x}xжурнал ⁡ e η - 1 η {\ displaystyle \ log {\ frac {e ^ {\ eta} -1} {\ eta}}}{\displaystyle \log {\frac {e^{\eta }-1}{\eta }}}журнал ⁡ (1-2 λ (1 - λ) журнал ⁡ (1 - λ λ)) {\ displaystyle \ log \ left ({\ frac {1-2 \ lambda} {(1 - \ lambda) \ журнал \ left ({\ frac {1- \ lambda} {\ lambda}} \ right)}} \ right)}{\displaystyle \log \left({\frac {1-2\lambda }{(1-\lambda)\log \left({\frac {1-\lambda }{\lambda }}\right)}}\right)}
нормальное распределение μ, σ 2 {\ displaystyle \ mu, \ \ sigma ^ { 2}}{\ displaystyle \ mu, \ \ sigma ^ {2}} [μ σ 2 - 1 2 σ 2] {\ displaystyle {\ begin {bmatrix} {\ dfrac {\ mu} {\ sigma ^ {2}}} \\ [10pt] - {\ dfrac {1} {2 \ sigma ^ {2}}} \ end {bmatrix}}}{\ begin {bmatrix} {\ dfrac {\ mu} {\ sigma ^ {2}}} \\ [10pt] - {\ dfrac {1} {2 \ sigma ^ {2}} } \ end {bmatrix}} [- η 1 2 η 2 - 1 2 η 2] {\ displayst yle {\ begin {bmatrix} - {\ dfrac {\ eta _ {1}} {2 \ eta _ {2}}} \\ [15pt] - {\ dfrac {1} {2 \ eta _ {2}}} \ end {bmatrix}} }{\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[15pt]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}1 2 π {\ displaystyle {\ frac {1} {\ sqrt {2 \ pi}}}}{\ frac {1} {\ sqrt {2 \ pi}} } [xx 2] {\ displaystyle {\ begin {bmatrix} x \ \ x ^ {2} \ end {bmatrix}}}{\begin{bmatrix}x\\x^{2}\end{bmatrix}}- η 1 2 4 η 2 - 1 2 журнал ⁡ (- 2 η 2) {\ displaystyle - {\ frac {\ eta _ {1} ^ { 2}} {4 \ eta _ {2}}} - {\ frac {1} {2}} \ log (-2 \ eta _ {2})}{\displaystyle -{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})}μ 2 2 σ 2 + log ⁡ σ { \ displaystyle {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}} + \ log \ sigma}{\displaystyle {\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma }
логнормальное распределение μ, σ 2 {\ displaystyle \ mu, \ \ sigma ^ {2}}{\ displaystyle \ mu, \ \ sigma ^ {2}} [μ σ 2 - 1 2 σ 2] {\ displaystyle {\ begin {bmatrix} {\ dfrac {\ mu} {\ sigma ^ {2}}} \\ [10pt] - { \ dfrac {1} {2 \ sigma ^ {2}}} \ end {bmatrix}}}{\ begin {bmatrix} {\ dfrac {\ mu} {\ sigma ^ {2}}} \\ [10pt] - {\ dfrac {1} {2 \ sigma ^ {2}} } \ end {bmatrix}} [- η 1 2 η 2 - 1 2 η 2] {\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ eta _ {1}} {2 \ eta _ {2}}} \\ [15pt] - {\ dfrac {1} {2 \ eta _ {2}}} \ end {bmatrix}}}{\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[15pt]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}1 2 π Икс {\ Displaystyle {\ frac {1} {{\ sqrt {2 \ pi}} x}}}{\frac {1}{{\sqrt {2\pi }}x}}[журнал ⁡ x (журнал ⁡ x) 2] {\ displaystyle {\ begin {bmatrix } \ журнал х \\ (\ журнал х) ^ {2} \ end {bmatrix}}}{\ displaystyle {\ begin {bmatrix} \ log x \\ (\ log x) ^ {2} \ end {bmatrix}}} - η 1 2 4 η 2 - 1 2 журнал ⁡ (- 2 η 2) {\ displaystyle - {\ frac {\ eta _ {1} ^ {2}} {4 \ eta _ {2}}} - {\ frac {1} {2}} \ log (-2 \ eta _ {2})}{\displaystyle -{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})}μ 2 2 σ 2 + журнал ⁡ σ {\ displaystyle {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}} + \ log \ sigma}{\displaystyle {\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma }
обратное распределение Гаусса bution μ, λ {\ displaystyle \ mu, \ \ lambda}{\displaystyle \mu,\ \lambda }[- λ 2 μ 2 - λ 2] {\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ lambda} {2 \ mu ^ {2}}} \\ [15pt] - {\ dfrac {\ lambda} {2}} \ end {bmatrix}}}{\begin{bmatrix}-{\dfrac {\lambda }{2\mu ^{2}}}\\[15pt]-{\dfrac {\lambda }{2}}\end{bmatrix}}[η 2 η 1–2 η 2] {\ displaystyle {\ begin {bmatrix} {\ sqrt {\ dfrac {\ eta _ {2}} {\ eta _ {1}}}} \\ [15pt] -2 \ eta _ {2} \ end {bmatrix}}}{\begin{bmatrix}{\sqrt {\dfrac {\eta _{2}}{\eta _{1}}}}\\[15pt]-2\eta _{2}\end{bmatrix}}1 2 π x 3 2 {\ displaystyle {\ frac {1} {{\ sqrt {2 \ pi}} x ^ {\ frac {3} {2}}}}}{\frac {1}{{\sqrt {2\pi }}x^{\frac {3}{2}}}}[x 1 x] {\ displaystyle {\ begin {bmatrix} x \\ [5pt] {\ dfrac {1} {x}} \ end {bmatrix}}}{\ begin {bmatrix} x \\ [5pt] {\ dfrac {1} {x}} \ end {bmatrix}} 2 η 1 η 2 - 1 2 log ⁡ (- 2 η 2) { \ displaystyle 2 {\ sqrt {\ eta _ {1} \ eta _ {2}}} - {\ frac {1} {2}} \ log (-2 \ eta _ {2})}{\displaystyle 2{\sqrt {\eta _{1}\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})}- λ μ - 1 2 log ⁡ λ {\ Displaystyle - {\ frac {\ lambda} {\ mu}} - {\ frac {1} {2}} \ log \ lambda}{\displaystyle -{\frac {\lambda }{\mu }}-{\frac {1}{2}}\log \lambda }
гамма-распределение α, β {\ displaystyle \ alpha, \ \ beta}{\displaystyle \alpha,\ \beta }[α - 1 - β] {\ displaystyle {\ begin {bmatrix} \ alpha -1 \\ - \ beta \ end {bmatrix}}}{\begin{bmatrix}\alpha -1\\-\beta \end{bmatrix}}[η 1 + 1 - η 2] {\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\ - \ eta _ {2} \ end {bmatrix}}}{\begin{bmatrix}\eta _{1}+1\\-\eta _{2}\end{bmatrix}}1 {\ displaystyle 1}1[журнал ⁡ xx] {\ displaysty ле {\ begin {bmatrix} \ журнал x \\ x \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log x\\x\end{bmatrix}}}журнал ⁡ Γ (η 1 + 1) - (η 1 + 1) журнал ⁡ (- η 2) {\ displaystyle \ log \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} +1) \ log (- \ eta _ {2})}{\displaystyle \log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})}log ⁡ Γ (α) - α log ⁡ β {\ displaystyle \ log \ Gamma (\ alpha) - \ alpha \ log \ beta}{\displaystyle \log \Gamma (\alpha)-\alpha \log \beta }
к, θ {\ displaystyle k, \ \ theta}{\displaystyle k,\ \theta }[k - 1-1 θ] {\ displaystyle {\ begin {bmatrix} k-1 \\ [5pt] - {\ dfrac {1} {\ theta}} \ end {bmatrix}}}{\begin{bmatrix}k-1\\[5pt]-{\dfrac {1}{\theta }}\end{bmatrix}}[η 1 + 1 - 1 η 2] {\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\ [5pt] - {\ dfrac {1} {\ eta _ {2}}} \ end {bmatrix}}}{\begin{bmatrix}\eta _{1}+1\\[5pt]-{\dfrac {1}{\eta _{2}}}\end{bmatrix}}log ⁡ Γ (k) + k журнал ⁡ θ {\ displaystyle \ log \ Gamma (k) + k \ log \ theta}{\displaystyle \log \Gamma (k)+k\log \theta }
обратное гамма-распределение α, β {\ displaystyle \ alpha, \ \ beta}{\displaystyle \alpha,\ \beta }[- α - 1 - β] {\ displaystyle {\ begin {bmatrix} - \ alpha -1 \\ - \ beta \ end {bmatrix}}}{\begin{bmatrix}-\alpha -1\\-\beta \end{bmatrix}}[- η 1 - 1 - η 2] {\ displaystyle {\ begin {bmatrix } - \ eta _ {1} -1 \\ - \ eta _ {2} \ end {bmatrix}}}{\begin{bmatrix}-\eta _{1}-1\\-\eta _{2}\end{bmatrix}}1 {\ displaystyle 1}1[журнал ⁡ x 1 x] {\ displaystyle {\ begin {bmatrix} \ log x \\ {\ frac {1} {x}} \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bm atrix}}}log ⁡ Γ (- η 1 - 1) - (- η 1-1) журнал ⁡ (- η 2) {\ displaystyle \ log \ Gamma (- \ eta _ {1} -1) - (- \ eta _ {1} -1) \ log (- \ эта _ {2})}{\ displaystyle \ log \ Gamma (- \ eta _ {1} -1) - (- \ eta _ {1} -1) \ log (- \ eta _ {2})} журнал ⁡ Γ (α) - α log ⁡ β {\ displaystyle \ log \ Gamma (\ alpha) - \ alpha \ log \ beta}{\displaystyle \log \Gamma (\alpha)-\alpha \log \beta }
обобщенное обратное распределение Гаусса p, a, b {\ displaystyle p, \ a, \ b}{\displaystyle p,\ a,\ b}[p - 1 - a / 2 - b / 2] {\ displaystyle {\ begin {bmatrix} p-1 \\ - a / 2 \\ - b / 2 \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}p-1\\-a/2\\-b/2\end{bmatrix}}}[η 1 + 1 - 2 η 2 - 2 η 3] {\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\ - 2 \ eta _ {2} \\ - 2 \ eta _ {3} \ end {bmatrix}}}{\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\ - 2 \ eta _ {2} \\ - 2 \ eta _ {3} \ end {bmatrix}}} 1 {\ displaystyle 1}1[журнал ⁡ xx 1 x] {\ displaystyle {\ begin { bmatrix} \ log x \\ x \\ {\ frac {1} {x}} \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log x\\x\\{\frac {1}{x}}\end{bmatrix}}}log ⁡ 2 K η 1 + 1 (4 η 2 η 3) - η 1 + 1 2 журнал ⁡ η 2 η 3 {\ displaystyle \ log 2K _ {\ eta _ {1} +1} ({\ sqrt {4 \ eta _ {2} \ eta _ {3}}}) - {\ frac {\ eta _ {1} +1} {2}} \ log {\ frac {\ eta _ {2}} {\ eta _ {3}}}}{\displaystyle \log 2K_{\eta _{1}+1}({\sqrt {4\eta _{2}\eta _{3}}})-{\frac {\eta _{1}+1}{2}}\log {\frac {\eta _{2}}{\eta _{3}}}}log ⁡ 2 K p (ab) - p 2 log ⁡ ab {\ displaystyle \ log 2K_ {p} ({\ sqrt {ab}}) - {\ frac {p} {2}} \ log {\ frac {a} {b}}}{\ displaystyle \ log 2K_ {p} ({\ sqrt {ab}}) - {\ frac {p} {2}} \ log {\ frac {a} {b}}}
масштабированная обратная ци -квадратное распределение ν, σ 2 {\ displaystyle \ Nu, \ \ sigma ^ {2}}{\displaystyle \nu,\ \sigma ^{2}}[- ν 2 - 1 - ν σ 2 2] {\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ nu} {2}} - 1 \ \ [10pt] - {\ dfrac {\ nu \ sigma ^ {2}} {2}} \ end {bmatrix}}}{ \ begin {bmatrix} - {\ dfrac {\ nu} {2}} - 1 \\ [10pt] - {\ dfrac {\ nu \ sigma ^ {2}} {2}} \ end {bmatrix}} [- 2 (η 1 + 1) η 2 η 1 + 1] {\ displaystyle {\ begin {bmatrix} -2 (\ eta _ {1} +1) \\ [10pt] {\ dfrac {\ eta _ {2}} {\ eta _ {1} +1}} \ end {bmatrix }}}{\ begin {bmatrix} -2 (\ eta _ {1} +1) \\ [10pt] {\ dfrac {\ eta _ {2}} {\ eta _ {1} +1}} \ конец {bmatrix}} 1 {\ displaystyle 1}1[журнал ⁡ x 1 x] {\ displaystyle {\ begin {bmatrix} \ log x \\ {\ frac {1} {x}} \ end {bmatrix }}}{\displaystyle {\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bm atrix}}}журнал ⁡ Γ (- η 1 - 1) - (- η 1 - 1) журнал ⁡ (- η 2) {\ displaystyle \ log \ Gamma (- \ eta _ {1} -1) - (- \ eta _ {1} -1) \ журнал (- \ eta _ {2})}{\ displaystyle \ log \ Gamma (- \ eta _ {1} -1) - (- \ eta _ {1} -1) \ log (- \ eta _ {2})} журнал ⁡ Γ (ν 2) - ν 2 журнал ⁡ ν σ 2 2 {\ displaystyle \ log \ Gamma \ left ({\ frac {\ nu} {2}} \ right) - {\ frac {\ nu} {2}} \ log {\ frac {\ nu \ sigma ^ {2}} {2}}}{\displaystyle \log \Gamma \left({\frac {\nu }{2}}\right)-{\frac {\nu }{2}}\log {\frac {\nu \sigma ^{2}}{2}}}
бета-распределение.. (вариант 1)α, β {\ displaystyle \ alpha, \ \ beta}{\displaystyle \alpha,\ \beta }[α β] {\ displaystyle {\ begin {bmatrix} \ alpha \\\ beta \ end {bmatrix}}}{\ displaystyle {\ begin {bmatrix} \ alpha \\\ beta \ end {bmatrix}}} [η 1 η 2] {\ displaystyle {\ begin {bmatrix} \ eta _ {1} \\\ eta _ {2} \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\eta _{1}\\\eta _{2}\end{bmatrix}}}1 x ( 1 - х) {\ displaystyle {\ frac {1} {x (1-x)}} }{\displaystyle {\frac {1}{x(1-x)}}}[журнал ⁡ x журнал ⁡ (1 - x)] {\ displaystyle {\ begin {bmatrix} \ log x \\\ log (1-x) \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log x\\\log(1-x)\end{bmatrix}}}журнал ⁡ Γ (η 1) + журнал ⁡ Γ (η 2) - журнал ⁡ Γ (η 1 + η 2) {\ displaystyle \ log \ Gamma (\ eta _ {1}) + \ log \ Gamma (\ eta _ {2}) - \ журнал \ гамма (\ eta _ {1} + \ eta _ {2})}{\displaystyle \log \Gamma (\eta _{1})+\log \Gamma (\eta _{2})-\log \Gamma (\eta _{1}+\eta _{2})}журнал ⁡ Γ (α) + журнал ⁡ Γ (β) - журнал ⁡ Γ (α + β) {\ displaystyle \ log \ Gamma (\ alpha) + \ log \ Gamma (\ beta) - \ log \ Gamma (\ alpha + \ beta)}{\ d isplaystyle \ log \ Gamma (\ alpha) + \ log \ Gamma (\ beta) - \ log \ Gamma (\ alpha + \ beta)}
бета-распределение.. (вариант 2)α, β {\ displaystyle \ alpha, \ \ beta}{\displaystyle \alpha,\ \beta }[α - 1 β - 1] {\ displaystyle {\ begin {bmatrix} \ alpha -1 \\\ beta -1 \ end {bmatrix}}}{\ begin {bmatrix} \ alpha -1 \\\ beta -1 \ end {bmatrix}} [η 1 + 1 η 2 + 1] {\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\\ eta _ {2} +1 \ end {bmatrix}}}{\ begin {bmatrix} \ eta _ {1} +1 \\\ eta _ {2} +1 \ end {bmatrix}} 1 {\ displaystyle 1 }1[журнал ⁡ x журнал ⁡ (1 - x)] {\ displaystyle {\ begin {bmatrix} \ log x \\\ log (1-x) \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log x\\\log(1-x)\end{bmatrix}}}журнал ⁡ Γ (η 1 + 1) + журнал ⁡ Γ (η 2 + 1) - журнал ⁡ Γ (η 1 + η 2 + 2) {\ Displaystyle \ журнал \ Gamma (\ eta _ {1} +1) + \ журнал \ Гамма (\ eta _ {2} +1) - \ log \ Gamma (\ eta _ {1} + \ eta _ {2} +2)}{\ displaystyle \ log \ Gamma (\ eta _ {1} +1) + \ log \ Gamma (\ eta _ {2 } +1) - \ log \ Gamma (\ eta _ {1} + \ eta _ {2} +2)} log ⁡ Γ (α) + журнал ⁡ Γ (β) - журнал ⁡ Γ (α + β) {\ Displaystyle \ log \ Gamma (\ alpha) + \ log \ Gamma (\ beta) - \ log \ Gamma (\ alpha + \ beta)}{\ d isplaystyle \ log \ Gamma (\ alpha) + \ log \ Gamma (\ beta) - \ log \ Gamma (\ alpha + \ beta)}
многомерное нормальное распределение μ, Σ {\ displaystyle {\ boldsymbol {\ mu}}, \ {\ boldsymbol {\ Sigma}}}{\displaystyle {\boldsymbol {\mu }},\ {\boldsymbol {\Sigma }}}[Σ - 1 μ - 1 2 Σ - 1] {\ displaystyle {\ begin {bmatrix} {\ boldsymbol {\ Sigma}} ^ {- 1} {\ boldsymbol {\ mu}} \\ [5pt] - {\ frac {1} {2}} {\ boldsymbol {\ Sigma} } ^ {- 1} \ end {bmatrix}}}{\begin{bmatrix}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\Sigma }}^{-1}\end{bmatrix}}[- 1 2 η 2 - 1 η 1 - 1 2 η 2 - 1] {\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} {\ boldsymbol {\ eta}} _ {2} ^ {- 1} {\ boldsymbol {\ eta}} _ {1} \\ [5pt] - {\ frac {1} {2}} { \ boldsymbol {\ eta}} _ {2} ^ {- 1} \ end {bmatrix}}}{\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}\end{bmatrix}}(2 π) - k 2 {\ displaystyle (2 \ pi) ^ {- {\ frac {k} {2}}}}(2 \ pi) ^ {- {\ frac {k} {2}}} [xxx T] {\ displaystyle {\ begin {bmatrix} \ mathbf {x} \\ [5pt] \ mathbf {x} \ mathbf {x} ^ {\ mathsf {T}} \ end {bmatrix}}}{\ displaystyle {\ begin {bmatrix} \ mathbf {x} \\ [5pt] \ mathbf {x} \ mathbf {x} ^ {\ mathsf {T }} \ end {bmatrix}}} - 1 4 η 1 T η 2 - 1 η 1 - 1 2 log ⁡ | - 2 η 2 | {\ displaystyle - {\ frac {1} {4}} {\ boldsymbol {\ eta}} _ {1} ^ {\ mathsf {T}} {\ boldsymbol {\ eta}} _ {2} ^ {- 1 } {\ boldsymbol {\ eta}} _ {1} - {\ frac {1} {2}} \ log \ left | -2 {\ boldsymbol {\ eta}} _ {2} \ right |}{\displaystyle -{\frac {1}{4}}{\boldsymbol {\eta }}_{1}^{\mathsf {T}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}-{\frac {1}{2}}\log \left|-2{\boldsymbol {\eta }}_{2}\right|}1 2 μ T Σ - 1 μ + 1 2 log ⁡ | Σ | {\ displaystyle {\ frac {1} {2}} {\ boldsymbol {\ mu}} ^ {\ mathsf {T}} {\ boldsymbol {\ Sigma}} ^ {- 1} {\ boldsymbol {\ mu}} + {\ frac {1} {2}} \ log | {\ boldsymbol {\ Sigma}} |}{\displaystyle {\frac {1}{2}}{\boldsymbol {\mu }}^{\mathsf {T}}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}+{\frac {1}{2}}\log |{\boldsymbol {\Sigma }}|}
категориальное распределение.. (вариант 1)p 1,…, pk {\ displaystyle p_ { 1}, \ \ ldots, \, p_ {k}}{\displaystyle p_{1},\ \ldots,\,p_{k}}.. где ∑ i = 1 kpi = 1 {\ displaystyle \ textstyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}\textstyle \sum _{i=1}^{k}p_{i}=1[журнал ⁡ p 1 ⋮ журнал ⁡ pk] {\ displaystyle {\ begin {bmatrix} \ log p_ {1} \\\ vdots \\\ log p_ {k} \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}}[е η 1 ⋮ е η к] {\ displaystyle {\ begin {bmatrix} e ^ {\ eta _ {1}} \\\ vdots \\ e ^ {\ eta _ {k}} \ end {bmatrix }}}{\ begin {bmatrix} e ^ {\ eta _ {1}} \\\ vdots \\ e ^ {\ eta _ {k}} \ end {bmatrix}} .. где ∑ я = 1 кэ η я = 1 {\ displaystyle \ textstyle \ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}} = 1}\textstyle \sum _{i=1}^{k}e^{\eta _{i}}=11 {\ displaystyle 1}1[[x = 1] ⋮ [x = k]] {\ displaystyle {\ begin {bmatrix} [x = 1] \\\ vdots \\ {[x = k] } \ end {bmatrix}}}{\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}0 {\ displaystyle 0} 00 {\ displaystyle 0} 0
категориальное распределение.. (вариант 2)p 1,…, pk {\ displaystyle p_ {1}, \ \ ldots, \, p_ {k}}{\displaystyle p_{1},\ \ldots,\,p_{k}}.. где ∑ i = 1 kpi = 1 {\ displaystyle \ textstyle \ sum _ {i = 1} ^ {k} p_ {i} Знак равно 1}\textstyle \sum _{i=1}^{k}p_{i}=1[журнал ⁡ п 1 + C ⋮ журнал ⁡ pk + C] {\ displaystyle {\ begin {bmatrix} \ log p_ {1} + C \\\ vdots \\\ log p_ {k} + C \ end {bmatrix}}}{\ displaystyle {\ begin {bmatrix} \ log p_ {1} + C \\\ vdots \\\ log p_ {k} + C \ end {bmatrix}}} [1 C e η 1 ⋮ 1 C e η k] = {\ displaystyle {\ begin {bmatrix} {\ dfrac {1} {C}} e ^ {\ eta _ {1}} \\\ vdots \\ {\ dfrac {1} {C}} e ^ {\ eta _ {k}} \ end {bmatrix}} =}{\begin{bmatrix}{\dfrac {1}{C}}e^{\eta _{1}}\\\vdots \\{\dfrac {1}{C}}e^{\eta _{k}}\end{bmatrix}}=.

[e η 1 ∑ i = 1 ke η я ⋮ е η К ∑ я знак равно 1 ке η я] {\ displaystyle {\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k } e ^ {\ eta _ {i}}}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {к} е ^ {\ eta _ {я}}}} \ end {bmatrix}}}{\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k} e ^ { \ eta _ {i}}}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {я}}}} \ конец {bmatrix}}

где ∑ я = 1 кэ η я = С {\ displaystyle \ textstyle \ sum _ {я = 1 } ^ {k} e ^ {\ eta _ {i}} = C}\textstyle \sum _{i=1}^{k}e^{\eta _{i}}=C

1 {\ displaystyle 1}1[[x = 1] ⋮ [x = k]] {\ displaystyle {\ begin { bmatrix} [x = 1] \\\ vdots \\ {[x = k]} \ end {bmatrix}}}{\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}0 {\ displaystyle 0} 00 {\ displaystyle 0} 0
категориальным распределением.. (va riant 3)p 1,…, pk {\ displaystyle p_ {1}, \ \ ldots, \, p_ {k}}{\displaystyle p_{1},\ \ldots,\,p_{k}}.. где pk = 1 - ∑ i = 1 k - 1 pi {\ displaystyle p_ {k} = 1- \ textstyle \ sum _ {i = 1} ^ {k-1} p_ {i}}p_ {k} = 1- \ textstyle \ sum _ {i = 1} ^ {k -1} p_ {i} [журнал ⁡ p 1 pk ⋮ журнал ⁡ pk - 1 pk 0] = {\ displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {p_ {k}}} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac {p_ {k-1) }} {p_ {k}}} \\ [15pt] 0 \ end {bmatrix}} =}{\displaystyle {\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}=}.. [log ⁡ p 1 1 - ∑ i = 1 k - 1 pi ⋮ log ⁡ pk - 1 1 - ∑ я = 1 К - 1 пи 0] {\ Displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i} }} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac {p_ {k-1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [15pt] 0 \ end {bmatrix}}}{\ displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac { p_ {k-1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [15pt] 0 \ end {bmatrix}}} [e η 1 ∑ i = 1 ke η я ⋮ е η К ∑ я знак равно 1 ке η я] = {\ displaystyle {\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ { k} e ^ {\ eta _ {i}}}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}}} \ end {bmatrix}} =}{\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\end{bmatrix}}=..

[e η 1 1 + ∑ i = 1 k - 1 e η i ⋮ e η k - 1 1 + ∑ я знак равно 1 К - 1 е η я 1 1 + ∑ я знак равно 1 К - 1 е η я] {\ Displaystyle {\ begin {bmatrix} {\ dfrac {е ^ {\ eta _ {1}}} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k -1}}} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}}} \\ [15pt] {\ dfrac {1} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}}} \ end {bmatrix}}}{\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k-1}}}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\\[15pt]{\dfrac {1}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\end{bmatrix}}

1 {\ displaystyle 1}1[[x = 1] ⋮ [x = k]] {\ displaystyle {\ begin {bmatrix} [x = 1] \\\ vdots \\ {[x = k]} \ end {bmatrix}}}{\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}журнал ⁡ ( ∑ я знак равно 1 ке η я) знак равно журнал ⁡ (1 + ∑ я знак равно 1 к - 1 е η я) {\ Displaystyle \ журнал \ влево (\ сумма _ {я = 1} ^ {к} е ^ {\ eta _ {i}} \ right) = \ log \ left (1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}} \ right)}{\displaystyle \log \left(\sum _{i=1}^{k}e^{\eta _{i}}\right)=\log \left(1+\sum _{i=1}^{k-1}e^{\eta _{i}}\right)}- журнал ⁡ пк знак равно - журнал ⁡ (1 - ∑ я = 1 К - 1 пи) {\ Displaystyle - \ журнал р_ {к} = - \ журнал \ влево (1- \ сумма _ {я = 1} ^ {k-1} p_ {i} \ right)}{\displaystyle -\log p_{k}=-\log \left(1-\sum _{i=1}^{k-1}p_{i}\right)}
мультиномиальное распределение.. (вариант 1). с известным количеством испытаний n {\ displaystyle n}nп 1,…, pk {\ displaystyle p_ {1}, \ \ ldots, \, p_ {k}}{\displaystyle p_{1},\ \ldots,\,p_{k}}.., где ∑ i = 1 kpi = 1 {\ displaystyle \ textstyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}\textstyle \sum _{i=1}^{k}p_{i}=1[журнал ⁡ p 1 ⋮ журнал ⁡ pk] {\ displaystyle {\ begin {bmatrix} \ log p_ {1} \\\ vdots \\\ log p_ {k} \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}}[e η 1 ⋮ e η k] {\ displaystyle {\ begin {bmatrix} e ^ {\ eta _ {1}} \\\ vdots \\ e ^ {\ eta _ {k}} \ end {bmatrix}}}{\ begin {bmatrix} e ^ {\ eta _ {1}} \\\ vdots \\ e ^ {\ eta _ {k}} \ end {bmatrix}} .. где ∑ i = 1 ke η i = 1 {\ displaystyle \ textstyle \ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}} = 1}\textstyle \sum _{i=1}^{k}e^{\eta _{i}}=1п! ∏ я знак равно 1 К х я! {\ displaystyle {\ frac {n!} {\ prod _ {i = 1} ^ {k} x_ {i}!}}}{\frac {n!}{\prod _{i=1}^{k}x_{i}!}}[x 1 ⋮ xk] {\ displaystyle {\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}}}{\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}} 0 {\ displaystyle 0} 00 {\ displaystyle 0} 0
мультиномиальное распределение.. (вариант 2). с известным количеством испытаний n {\ displaystyle n}np 1,…, pk {\ displaystyle p_ {1}, \ \ ldots, \, p_ {k}}{\displaystyle p_{1},\ \ldots,\,p_{k}}.. где ∑ я = 1 kpi = 1 {\ displaystyle \ textstyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}\textstyle \sum _{i=1}^{k}p_{i}=1[журнал ⁡ p 1 + C ⋮ журнал ⁡ pk + C] {\ displaystyle {\ begin {bmatrix} \ log p_ {1} + C \\\ vdots \\\ log p_ {k} + C \ end {bmatrix}}}{\ displaystyle {\ begin {bmatrix} \ log p_ {1} + C \\\ vdots \\\ log p_ {k} + C \ end {bmatrix}}} [1 C e η 1 ⋮ 1 C е η К] = {\ Displaystyle {\ begin {bmatrix} {\ dfrac {1} {C}} e ^ {\ eta _ {1}} \\\ vdots \\ {\ dfrac {1} {C}} e ^ {\ eta _ {k}} \ end {bmatrix}} =}{\begin{bmatrix}{\dfrac {1}{C}}e^{\eta _{1}}\\\vdots \\{\dfrac {1}{C}}e^{\eta _{k}}\end{bmatrix}}=.

[e η 1 ∑ i = 1 ke η i ⋮ e η k ∑ i = 1 ke η i] {\ displaystyle {\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}}} \ end {bmatrix} }}{\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k} e ^ { \ eta _ {i}}}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {я}}}} \ конец {bmatrix}}

где ∑ i = 1 ke η i = C {\ displaystyle \ t extstyle \ sum _ {я = 1} ^ {k} е ^ {\ eta _ {я}} = C}\textstyle \sum _{i=1}^{k}e^{\eta _{i}}=C

п! ∏ я знак равно 1 К х я! {\ displaystyle {\ frac {n!} {\ prod _ {i = 1} ^ {k} x_ {i}!}}}{\frac {n!}{\prod _{i=1}^{k}x_{i}!}}[x 1 ⋮ xk] {\ displaystyle {\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}}}{\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}} 0 {\ displaystyle 0} 00 {\ displaystyle 0} 0
мультиномиальное распределение.. (вариант 3). с известным количеством испытаний n {\ displaystyle n}np 1,…, pk {\ displaystyle p_ {1}, \ \ ldots, \, p_ {k}}{\displaystyle p_{1},\ \ldots,\,p_{k}}.. где pk = 1 - ∑ i = 1 k - 1 pi {\ displaystyle p_ {k} = 1- \ textstyle \ sum _ {i = 1} ^ {k-1} p_ {i}}p_ {k} = 1- \ textstyle \ sum _ {i = 1} ^ {k -1} p_ {i} [журнал ⁡ п 1 пк ⋮ журнал ⁡ пк - 1 пк 0] = {\ displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {p_ {k}}} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac {p_ {k-1}} {p_ {k}}} \\ [15pt] 0 \ end {bmatrix}} =}{\displaystyle {\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}=}.. [log ⁡ p 1 1 - ∑ i = 1 к - 1 пи ⋮ журнал ⁡ пк - 1 1 - ∑ я = 1 к - 1 пи 0] {\ displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {1- \ sum _ { i = 1} ^ {k-1} p_ {i}}} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac {p_ {k-1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [15pt] 0 \ end {bmatrix}}}{\ displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac { p_ {k-1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [15pt] 0 \ end {bmatrix}}} [e η 1 ∑ i = 1 ke η i ⋮ e η k ∑ i = 1 ke η я] = {\ Displaystyle {\ begin {bmatrix} {\ dfrac {е ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}}} \ end {bmatrix}} =}{\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k}}}{\sum _{i=1}^{k}e^{\eta _{i}}}}\end{bmatrix}}=..

[e η 1 1 + ∑ я знак равно 1 к - 1 е η я ⋮ е η к - 1 1 + ∑ я = 1 к - 1 е η я 1 1 + ∑ я = 1 к - 1 е η я] {\ Displaystyle { \ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}}} \ \ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k-1}}} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}}} \\ [15pt] {\ dfrac {1} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}}} \ end { bmatrix}}}{\begin{bmatrix}{\dfrac {e^{\eta _{1}}}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\\[10pt]\vdots \\[5pt]{\dfrac {e^{\eta _{k-1}}}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\\[15pt]{\dfrac {1}{1+\sum _{i=1}^{k-1}e^{\eta _{i}}}}\end{bmatrix}}

n! ∏ я знак равно 1 К х я! {\ displaystyle {\ frac {n!} {\ prod _ {i = 1} ^ {k} x_ {i}!}}}{\frac {n!}{\prod _{i=1}^{k}x_{i}!}}[x 1 ⋮ xk] {\ displaystyle {\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}}}{\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}} n log ⁡ (∑ i = 1 ke η i) = n log ⁡ (1 + ∑ i = 1 k - 1 e η я) {\ Displaystyle п \ журнал \ влево (\ сумма _ {я = 1} ^ {k} е ^ {\ eta _ {я}} \ справа) = п \ журнал \ влево (1+ \ сумма _ { i = 1} ^ {k-1} e ^ {\ eta _ {i}} \ right)}{\displaystyle n\log \left(\sum _{i=1}^{k}e^{\eta _{i}}\right)=n\log \left(1+\sum _{i=1}^{k-1}e^{\eta _{i}}\right)}- n log ⁡ pk = - n log ⁡ (1 - ∑ i = 1 k - 1 pi) { \ displaystyle -n \ log p_ {k} = - n \ log \ left (1- \ sum _ {i = 1} ^ {k-1} p_ {i} \ right)}{\displaystyle -n\log p_{k}=-n\log \left(1-\sum _{i=1}^{k-1}p_{i}\right)}
Распределение Дирихле.. (вариант 1)α 1,…, α К {\ Displaystyle \ alpha _ {1}, \ \ ldots, \, \ alpha _ {k}}{\displaystyle \alpha _{1},\ \ldots,\,\alpha _{k}}[α 1 ⋮ α k] {\ Displaystyle {\ begin {bmatrix} \ alpha _ {1} \\\ vdots \\\ alpha _ {k} \ end {bmatrix}}}{\ displaystyle {\ begin {bmatrix} \ alpha _ {1} \\\ vdots \\\ alpha _ {k} \ end {bmatrix}}} [η 1 ⋮ η k] {\ displaystyle {\ begin {bmatrix} \ eta _ {1} \\\ vdots \\\ eta _ {k} \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\eta _{1}\\\vdots \\\eta _{k}\end{bmatrix}}}1 ∏ i = 1 kxi {\ displaystyle {\ frac {1} {\ prod _ {i = 1} ^ {k} x_ {i}}}}{\displaystyle {\frac {1}{\prod _{i=1}^{k}x_{i}}}}[журнал ⁡ x 1 ⋮ журнал ⁡ xk] {\ displaystyle {\ begin {bmatrix} \ log x_ {1} \\\ vdots \\\ log x_ {k} \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}}∑ i = 1 k log ⁡ Γ (η i) - log ⁡ Γ ( ∑ я знак равно 1 К η я) {\ Displaystyle \ сумма _ {я = 1} ^ {k} \ log \ Gamma (\ eta _ {i}) - \ log \ Gamma \ left (\ sum _ {я = 1 } ^ {k} \ eta _ {i} \ right)}{\displaystyle \sum _{i=1}^{k}\log \Gamma (\eta _{i})-\log \Gamma \left(\sum _{i=1}^{k}\eta _{i}\right)}∑ i = 1 k log ⁡ Γ (α i) - log ⁡ Γ (∑ i = 1 k α i) {\ displaystyle \ sum _ { i = 1} ^ {k} \ log \ Gamma (\ alpha _ {i}) - \ log \ Gamma \ left (\ sum _ {i = 1} ^ {k} \ alpha _ {i} \ right)}{\displaystyle \sum _{i=1}^{k}\log \Gamma (\alpha _{i})-\log \Gamma \left(\sum _{i=1}^{k}\alpha _{i}\right)}
Распределение Дирихле.. (вариант 2)α 1,…, α k {\ displaystyle \ alpha _ {1}, \ \ ldots, \, \ alpha _ {k}}{\displaystyle \alpha _{1},\ \ldots,\,\alpha _{k}}[α 1-1 ⋮ α К - 1] {\ Displaystyle {\ begin {bmatrix} \ alpha _ {1} -1 \\\ vdots \\\ alpha _ {k} -1 \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\alpha _{1}-1\\\vdots \\\alpha _{k}-1\end{bmatrix}}}[η 1 + 1 ⋮ η К + 1] {\ Displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\\ vdots \\\ eta _ {k} +1 \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\eta _{1}+1\\\vdots \\\eta _{k}+1\end{bmatrix}}}1 {\ displaystyle 1}1[журнал ⁡ x 1 ⋮ журнал ⁡ xk] {\ displaystyle {\ begin {bmatrix} \ log x_ {1} \\\ vdots \\\ log x_ {k} \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}}∑ я знак равно 1 К журнал ⁡ Γ (η я + 1) - журнал ⁡ Γ (∑ я = 1 К (η я + 1)) {\ Displaystyle \ сумма _ {я = 1} ^ {k} \ log \ Gamma (\ eta _ {i} +1) - \ log \ Gamma \ left (\ sum _ {i = 1} ^ {k} (\ eta _ {i} +1) \ right)}{\displaystyle \sum _{i=1}^{k}\log \Gamma (\eta _{i}+1)-\log \Gamma \left(\sum _{i=1}^{k}(\eta _{i}+1)\right)}∑ i = 1 k log ⁡ Γ (α i) - log ⁡ Γ (∑ i = 1 k α я) {\ displaystyle \ sum _ {i = 1} ^ {k} \ log \ Gamma (\ alpha _ {i}) - \ log \ Gamma \ left (\ sum _ {i = 1} ^ {k} \ alpha _ {i} \ right)}{\displaystyle \sum _{i=1}^{k}\log \Gamma (\alpha _{i})-\log \Gamma \left(\sum _{i=1}^{k}\alpha _{i}\right)}
Распределение Уишарта V, n {\ displaystyle \ mathbf {V}, \ n}{\displaystyle \mathbf {V},\ n}[- 1 2 V - 1 n - p - 1 2] { \ Displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} \ mathbf {V} ^ {- 1} \\ [5pt] {\ dfrac {np-1} {2}} \ end {bmatrix }}}{\begin{bmatrix}-{\frac {1}{2}}\mathbf {V} ^{-1}\\[5pt]{\dfrac {n-p-1}{2}}\end{bmatrix}}[- 1 2 η 1 - 1 2 η 2 + p + 1] {\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} {{\ boldsymbol {\ eta} } _ {1}} ^ {- 1} \\ [5pt] 2 \ eta _ {2} + p + 1 \ end {bmatrix}}}{\begin{bmatrix}-{\frac {1}{2}}{{\boldsymbol {\eta }}_{1}}^{-1}\\[5pt]2\eta _{2}+p+1\end{bmatrix}}1 {\ displaystyle 1}1[X log ⁡ | X | ] {\ displaystyle {\ begin {bmatrix} \ mathbf {X} \\\ log | \ mathbf {X} | \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\mathbf {X} \\\log |\mathbf {X} |\end{bmatrix}}}- (η 2 + p + 1 2) log ⁡ | - η 1 | {\ displaystyle - \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) \ log | - {\ boldsymbol {\ eta}} _ {1} |}{\displaystyle -\left(\eta _{2}+{\frac {p+1}{2}}\right)\log |-{\boldsymbol {\eta }}_{1}|}.

+ журнал ⁡ Γ п (η 2 + p + 1 2) = {\ displaystyle + \ log \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ вправо) =}{\displaystyle +\log \Gamma _{p}\left(\eta _{2}+{\frac {p+1}{2}}\right)=}. - n 2 log ⁡ | - η 1 | + журнал ⁡ Γ п (N 2) = {\ displaystyle - {\ frac {n} {2}} \ log | - {\ boldsymbol {\ eta}} _ {1} | + \ log \ Gamma _ {p} \ left ({\ frac {n} {2}} \ right) =}{\displaystyle -{\frac {n}{2}}\log |-{\boldsymbol {\eta }}_{1}|+\log \Gamma _{p}\left({\frac {n}{2}}\right)=}. (η 2 + p + 1 2) (p log ⁡ 2 + log ⁡ | V |) {\ displaystyle \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2+ \ log | \ mathbf {V} |)}{\displaystyle \left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2+\log |\mathbf {V} |)}. + log ⁡ Γ p (η 2 + p + 1 2) {\ displaystyle + \ log \ Gamma _{p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right)}{\ displaystyle + \ log \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ верно)}

  • Три варианта с разными параметрами приведены для облегчения вычисления моментов достаточной статистики.
n 2 (p log ⁡ 2 + log ⁡ | V |) + log ⁡ Γ p (n 2) {\ displaystyle {\ frac {n} {2} } (p \ log 2+ \ log | \ mathbf {V} |) + \ log \ Gamma _ {p} \ left ({\ frac {n} {2}} \ right)}{\displaystyle {\frac {n}{2}}(p\log 2+\log |\mathbf {V} |)+\log \Gamma _{p}\left({\frac {n}{2}}\right)}
Примечание : Использует тот факт, что тр (ATB) = vec ⁡ (A) ⋅ vec ⁡ (B), {\ displaystyle {\ rm {tr}} (\ mathbf {A} ^ {\ mathsf {T}} \ mathbf {B}) = \ operatorname {vec} (\ mathbf {A}) \ cdot \ operatorname {vec} (\ mathbf {B}),}{\displaystyle {\rm {tr}}(\mathbf {A} ^{\mathsf {T}}\mathbf {B})=\operatorname {vec} (\mathbf {A})\cdot \operatorname {vec} (\mathbf {B}),}т.е. след матричного произведения очень похож на скалярное произведение. Предполагается, что параметры матрицы векторизованы (размещены в векторе) при вставке в экспоненциальную форму. Кроме того, V {\ displaystyle \ mathbf {V}}\mathbf {V} и X {\ displaystyle \ mathbf {X}}\ mathbf {X} симметричны, поэтому, например, V T = V. {\ displaystyle \ mathbf {V} ^ {\ mathsf {T}} = \ mathbf {V} \.}{\displaystyle \mathbf {V} ^{\mathsf {T}}=\mathbf {V} \.}
обратное распределение Уишарта Ψ, m {\ displaystyle \ mathbf {\ Psi}, \, m }{\displaystyle \mathbf {\Psi },\,m}[- 1 2 Ψ - m + p + 1 2] {\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} {\ boldsymbol {\ Psi}} \\ [5pt] - {\ dfrac {m + p + 1} {2}} \ end {bmatrix}}}{\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\Psi }}\\[5pt]-{\dfrac {m+p+1}{2}}\end{bmatrix}}[- 2 η 1 - (2 η 2 + p + 1)] {\ displaystyle {\ begin {bmatrix} -2 {\ boldsymbol {\ eta}} _ {1} \\ [5pt] - (2 \ eta _ {2} + p + 1) \ end {bmatrix}}}{\begin{bmatrix}-2{\boldsymbol {\eta }}_{1}\\[5pt]-(2\eta _{2}+p+1)\end{bmatrix}}1 {\ displaystyle 1}1[X - 1 журнал ⁡ | X | ] {\ displaystyle {\ begin {bmatrix} \ mathbf {X} ^ {- 1} \\\ log | \ mathbf {X} | \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\mathbf {X} ^{-1}\\\log |\mathbf {X} |\end{bmatrix}}}(η 2 + p + 1 2) журнал ⁡ | - η 1 | {\ displaystyle \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) \ log | - {\ boldsymbol {\ eta}} _ {1} |}{\displaystyle \left(\eta _{2}+{\frac {p+1}{2}}\right)\log |-{\boldsymbol {\eta }}_{1}|}.

+ журнал ⁡ Γ п (- (η 2 + п + 1 2)) = {\ Displaystyle + \ log \ Gamma _ {p} \ left (- {\ Big (} \ eta _ {2} + {\ frac {p +1} {2}} {\ Big)} \ right) =}{\displaystyle +\log \Gamma _{p}\left(-{\Big (}\eta _{2}+{\frac {p+1}{2}}{\Big)}\right)=}. - журнал м 2 ⁡ | - η 1 | + журнал ⁡ Γ п (м 2) = {\ displaystyle - {\ frac {m} {2}} \ log | - {\ boldsymbol {\ eta}} _ {1} | + \ log \ Gamma _ {p} \ left ({\ frac {m} {2}} \ right) =}{\displaystyle -{\frac {m}{2}}\log |-{\boldsymbol {\eta }}_{1}|+\log \Gamma _{p}\left({\frac {m}{2}}\right)=}. - (η 2 + p + 1 2) (p log ⁡ 2 - log ⁡ | Ψ |) {\ displaystyle - \ left ( \ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2- \ log | {\ boldsymbol {\ Psi}} |)}{\displaystyle -\left(\eta _{2}+{\frac {p+1}{2}}\right)(p\log 2-\log |{\boldsymbol {\Psi }}|)}. + log ⁡ Γ p (- (η 2 + p + 1 2)) {\ displaystyle + \ log \ Gamma _ {p} \ left (- {\ Big (} \ eta _ {2} + {\ frac {p + 1} {2 }} {\ Big)} \ right)}{\ displaystyle + \ log \ Gamma _ {p} \ left ( - {\ Big (} \ eta _ {2} + {\ frac {p + 1} {2}} {\ Big)} \ right)}

m 2 (p log ⁡ 2 - log ⁡ | Ψ |) + log ⁡ Γ p (m 2) {\ displaystyle {\ frac {m} {2}} (p \ log 2- \ log | {\ boldsymbol {\ Psi}} |) + \ log \ Gamma _ {p} \ left ({\ frac {m} {2}} \ right)}{\displaystyle {\frac {m}{2}}(p\log 2-\log |{\boldsymbol {\Psi }}|)+\log \Gamma _{p}\left({\frac {m}{2}}\right)}
нормальный- гамма-распределение α, β, μ, λ {\ displaystyle \ alpha, \ \ beta, \ \ mu, \ \ lambda}{\displaystyle \alpha,\ \beta,\ \mu,\ \lambda }[α - 1 2 - β - λ μ 2 2 λ μ - λ 2 ] {\ displaystyle {\ begin {bmatrix} \ alpha - {\ frac {1} {2}} \\ - \ beta - {\ dfrac {\ lambda \ mu ^ {2}} {2}} \\\ lambda \ mu \\ - {\ dfrac {\ lambda} {2}} \ end {bmatrix}}}{\ begin {bmatrix} \ alpha - {\ frac {1} {2}} \\ - \ beta - {\ dfrac {\ lambda \ mu ^ {2}} {2}} \\\ lambda \ mu \\ - {\ dfrac {\ lambda} {2}} \ end {bmatrix}} [η 1 + 1 2 - η 2 + η 3 2 4 η 4 - η 3 2 η 4 - 2 η 4] {\ displaystyle {\ begin {bmatrix} \ eta _ {1} + {\ frac {1} {2}} \\ - \ eta _ { 2} + {\ dfrac {\ eta _ {3} ^ {2}} {4 \ eta _ {4}}} \\ - {\ dfrac {\ eta _ {3}} {2 \ eta _ {4} }} \\ - 2 \ eta _ {4} \ end {bmatrix}}}{\begin{bmatrix}\eta _{1}+{\frac {1}{2}}\\-\eta _{2}+{\dfrac {\eta _{3}^{2}}{4\eta _{4}}}\\-{\dfrac {\eta _{3}}{2\eta _{4}}}\\-2\eta _{4}\end{bmatrix}}1 2 π {\ displaystyle {\ dfrac {1} {\ sqrt {2 \ pi}}}}{\dfrac {1}{\sqrt {2\pi }}}[журнал ⁡ τ τ τ x τ x 2] {\ displaystyle {\ begin {bmatrix} \ log \ tau \\\ tau \\\ tau x \\\ tau x ^ {2} \ end {bmatrix}}}{\displaystyle {\begin{bmatrix}\log \tau \\\tau \\\tau x\\\tau x^{2}\end{bmatrix}}}журнал ⁡ Γ (η 1 + 1 2) - 1 2 журнал ⁡ (- 2 η 4) - {\ displaystyle \ log \ Gamma \ left (\ eta _ {1} + {\ frac {1} {2}} \ справа) - {\ frac {1} {2}} \ log \ left (-2 \ eta _ {4} \ right) -}{\displaystyle \log \Gamma \left(\eta _{1}+{\frac {1}{2}}\right)-{\frac {1}{2}}\log \left(-2\eta _{4}\right)-}.

- (η 1 + 1 2) log ⁡ (- η 2 + η 3 2 4 η 4) {\ displaystyle - \ left (\ eta _ {1} + {\ frac {1} {2}} \ right) \ log \ left (- \ eta _ {2} + {\ dfrac { \ eta _ {3} ^ {2}} {4 \ eta _ {4}}} \ right)}{\ displaystyle - \ left (\ eta _ {1 } + {\ frac {1} {2}} \ right) \ log \ left (- \ eta _ {2} + {\ dfrac {\ eta _ {3} ^ {2}} {4 \ eta _ {4 }}} \ right)}

журнал ⁡ Γ (α) - α журнал ⁡ β - 1 2 журнал ⁡ λ {\ displaystyle \ log \ Gamma \ left (\ alpha \ right) - \ alpha \ log \ beta - {\ frac {1} {2}} \ log \ lambda}{\displaystyle \log \Gamma \left(\alpha \right)-\alpha \log \beta -{\f rac {1}{2}}\log \lambda }
* Скобка Айверсона является обобщением дискретная дельта-функция: если выражение в квадратных скобках истинно, скобка имеет значение 1; если заключенное утверждение ложно, скобка Айверсона равна нулю. Существует множество вариантов обозначений, например волновые скобки: ⧙a = b⧘ эквивалентно нотации [a = b], использованной выше.

Три варианта категориального распределения и мультиномиального распределения обусловлены тот факт, что параметры pi {\ displaystyle p_ {i}}p_{i}ограничены, так что

∑ i = 1 kpi = 1. {\ displaystyle \ sum _ {i = 1} ^ {k} p_ {i} = 1 ~.}{\displaystyle \sum _{i=1}^{k}p_{i}=1~.}

Таким образом, существует только k - 1 {\ displaystyle k-1}k- 1 независимые параметры.

  • Вариант 1 использует k {\ displaystyle k}kестественные параметры с простым соотношением между стандартными и естественными параметрами; однако только k - 1 {\ displaystyle k-1}k- 1 естественных параметров являются независимыми, а набор k {\ displaystyle k}kестественных параметров неидентифицируемый. Ограничение на обычные параметры трансформируется в аналогичное ограничение на естественные параметры.
  • Вариант 2 демонстрирует тот факт, что весь набор естественных параметров не идентифицируется: добавление любого постоянного значения к естественным параметрам не влияет на результирующее распределение. Однако, используя ограничение на естественные параметры, формула для нормальных параметров в терминах естественных параметров может быть записана способом, который не зависит от добавляемой константы.
  • Вариант 3 показывает, как сделайте параметры идентифицируемыми удобным способом, задав C = - log ⁡ pk. {\ displaystyle C = - \ log p_ {k} \.}{\displaystyle C=-\log p_{k}\.}Это эффективно "поворачивается" вокруг pk {\ displaystyle p_ {k}}p_ {k} и вызывает последнее естественное параметр, чтобы иметь постоянное значение 0. Все остальные формулы написаны таким образом, чтобы не было доступа к pk {\ displaystyle p_ {k} \}{\displaystyle p_{k}\ }, так что фактически модель имеет только k - 1 {\ displaystyle k-1}k- 1 параметры, как обычного, так и естественного типа.

Варианты 1 и 2 на самом деле вообще не являются стандартными экспоненциальными семействами. Скорее, они представляют собой изогнутые экспоненциальные семейства, т.е. есть k - 1 {\ displaystyle k-1}k- 1 независимых параметров, встроенных в k {\ displaystyle k}k- пространство размерных параметров. Многие из стандартных результатов для экспоненциальных семейств не применимы к изогнутым экспоненциальным семействам. Примером является функция разбиения журнала A (x) {\ displaystyle A (x) \}{\displaystyle A(x)\ }, которая имеет значение 0 в изогнутых случаях. В стандартных экспоненциальных семействах производные этой функции соответствуют моментам (более технически, кумулянтам ) достаточной статистики, например среднее и дисперсия. Однако значение 0 предполагает, что среднее значение и дисперсия всей достаточной статистики равны 0, тогда как на самом деле среднее значение i {\ displaystyle i}ith достаточной статистики должно быть пи {\ displaystyle p_ {i} \}{\displaystyle p_{i}\ }. (Это проявляется правильно при использовании формы A (x) {\ displaystyle A (x) \}{\displaystyle A(x)\ }, показанной в варианте 3.)

Моменты и кумулянты достаточного статистика

Нормализация распределения

Начнем с нормализации распределения вероятностей. В общем, любая неотрицательная функция f (x), которая служит ядром распределения вероятностей (часть, кодирующая всю зависимость от x), может быть преобразована в правильное распределение с помощью нормализации : т.е.

p (x) = 1 Z f (x) {\ displaystyle p (x) = {\ frac {1} {Z}} f (x)}p(x)={\frac {1}{Z}}f(x)

где

Z = ∫ xf (x) dx. {\ displaystyle Z = \ int _ {x} f (x) \, dx.}{\displaystyle Z=\int _{x}f(x)\,dx.}

Коэффициент Z иногда называют нормализатором или функцией распределения по аналогии с статистической физика.

В случае экспоненциального семейства, где

p (x; η) = g (η) h (x) e η ⋅ T (x), {\ displaystyle p (x; {\ boldsymbol {\ \ eta}}) = g ({\ boldsymbol {\ eta}}) h (x) e ^ {{\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x)},}p(x;{\boldsymbol {\eta }})=g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)},

ядро

К (Икс) знак равно час (Икс) е η ⋅ T (Икс) {\ Displaystyle К (х) = час (х) е ^ {{\ boldsymbol {\ eta}} \ CDOT \ mathbf {T} ( x)}}K(x)=h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}

и статистическая сумма равна

Z = ∫ xh (x) e η ⋅ T (x) dx. {\ displaystyle Z = \ int _ {x} h (x) e ^ {{\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x)} \, dx.}{\displaystyle Z=\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx.}

Поскольку распределение должно быть после нормализации

1 = ∫ xg (η) h (x) e η ⋅ T (x) dx = g (η) ∫ xh (x) e η ⋅ T (x) dx = g (η) Z. {\ displaystyle 1 = \ int _ {x} g ({\ boldsymbol {\ eta}}) h (x) e ^ {{\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x)} \, dx = g ({\ boldsymbol {\ eta}}) \ int _ {x} h (x) e ^ {{\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x)} \, dx = g ({\ boldsymbol {\ eta}}) Z.}{\displaystyle 1=\int _{x}g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx=g({\boldsymbol {\eta }})\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx=g({\boldsymbol {\eta }})Z.}

Другими словами,

g (η) = 1 Z {\ displaystyle g ({\ boldsymbol {\ eta}}) = {\ frac {1 } {Z}}}g({\boldsymbol {\eta }})={\frac {1}{Z}}

или эквивалентно

A (η) = - log ⁡ g (η) = log ⁡ Z. {\ displaystyle A ({\ boldsymbol {\ eta}}) = - \ log g ({\ boldsymbol {\ eta}}) = \ log Z.}{\displaystyle A({\boldsymbol {\eta }})=-\log g({\boldsymbol {\eta }})=\log Z.}

Это оправдывает вызов A нормализатором журнала или разделением журнала функция.

Функция создания момента достаточной статистики

Теперь функция создания момента для T (x) равна

MT (u) ≡ E [eut T (Икс) ∣ η] знак равно ∫ Икс (Икс) е (η + U) T T (Икс) - A (η) dx = е A (η + u) - A (η) {\ Displaystyle M_ {T} (u) \ Equiv E [e ^ {u ^ {\ rm {t}} T (x)} \ mid \ eta] = \ int _ {x} h (x) e ^ {(\ eta + u) ^ {\ rm {t}} T (x) -A (\ eta)} \, dx = e ^ {A (\ eta + u) -A (\ eta)}}{\displaystyle M_{T}(u)\equiv E[e^{u^{\rm {t}}T(x)}\mid \eta ]=\int _{x}h(x)e^{(\eta +u)^{\rm {t}}T(x)-A(\eta)}\,dx=e^{A(\eta +u)-A(\eta)}}

где t означает транспонирование, доказывая ранее утверждалось, что

К (u∣ η) знак равно A (η + u) - A (η) {\ displaystyle K (u \ mid \ eta) = A (\ eta + u) -A (\ eta)}K(u\mid \eta)=A(\eta +u)-A(\eta)

- кумулянтная производящая функция для T.

Важным подклассом экспоненциальных семейств являются естественные экспоненциальные семейства, которые на данный момент имеют аналогичную форму - производящая функция для распределения x.

Дифференциальные тождества для кумулянтов

В частности, используя свойства производящей функции кумулянта,

E ⁡ (T j) = ∂ A (η) ∂ η j {\ displaystyle \ operatorname {E } (T_ {j}) = {\ frac {\ partial A (\ eta)} {\ partial \ eta _ {j}}}}{\ displaystyle \ operatorname {E} ( T_ {j}) = {\ frac {\ partial A (\ eta)} {\ partial \ eta _ {j}}}}

и

cov ⁡ (T i, T j) = ∂ 2 A (η) ∂ η i ∂ η j. {\ displaystyle \ operatorname {cov} \ left (T_ {i}, T_ {j} \ right) = {\ frac {\ partial ^ {2} A (\ eta)} {\ partial \ eta _ {i} \, \ partial \ eta _ {j}}}.}{\displaystyle \operatorname {cov} \left(T_{i},T_{j}\right)={\frac {\partial ^{2}A(\eta)}{\partial \eta _{i}\,\partial \eta _{j}}}.}

Первые два сырых момента и все смешанные вторые моменты могут быть восстановлены из этих двух идентичностей. Моменты и кумулянты высших порядков получаются с помощью высших производных. Этот метод часто бывает полезен, когда T является сложной функцией данных, моменты которой трудно вычислить путем интегрирования.

Другой способ увидеть это, который не опирается на теорию кумулянтов, - это начать с того факта, что распределение экспоненциального семейства должно быть нормализовано и дифференцировано. Мы проиллюстрируем это на простом случае одномерного параметра, но аналогичный вывод справедлив и в более общем случае.

В одномерном случае

p (x) = g (η) h (x) e η T (x). {\ displaystyle p (x) = g (\ eta) h (x) e ^ {\ eta T (x)}.}p(x)=g(\eta)h(x)e^{\eta T(x)}.

Это должно быть нормализовано, поэтому

1 = ∫ xp (x) dx = Xg (η) h (x) e η T (x) dx = g (η) ∫ xh (x) e η T (x) dx. {\ displaystyle 1 = \ int _ {x} p (x) \, dx = \ int _ {x} g (\ eta) h (x) e ^ {\ eta T (x)} \, dx = g ( \ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx.}{\ displaystyle 1 = \ int _ {x} p (x) \, dx = \ int _ {x} g (\ eta) h (x) e ^ {\ eta T (x)} \, dx = g (\ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx.}

Возьмем производную от обеих частей по η:

0 = g (η) dd η ∫ xh (x) e η T (x) dx + g ′ (η) ∫ xh (x) e η T (x) dx = g (η) ∫ xh (x) ( dd η e η T (x)) dx + g ′ (η) ∫ xh (x) e η T (x) dx = g (η) ∫ xh (x) e η T (x) T (x) dx + g ′ (η) ∫ xh (x) e η T (x) dx = ∫ x T (x) g (η) h (x) e η T (x) dx + g ′ (η) g (η) ∫ xg (η) h (x) e η T (x) dx = ∫ x T (x) p (x) dx + g ′ (η) g (η) ∫ xp (x) dx = E ⁡ [T (x)] + g ′ (η) g (η) = E ⁡ [T (x)] + dd η log ⁡ g (η) {\ displaystyle {\ begin {align} 0 = g (\ eta) {\ frac { d} {d \ eta}} \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx + g '(\ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx \\ = g (\ eta) \ int _ {x} h (x) \ left ({\ frac {d} {d \ eta}} e ^ {\ eta T (x)} \ right) \, dx + g '(\ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx \\ = g (\ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} T (x) \, dx + g '(\ eta) \ int _ {x } h (x) e ^ {\ eta T (x)} \, dx \\ = \ int _ {x} T (x) g (\ eta) h (x) e ^ {\ eta T (x) } \, dx + {\ frac {g '(\ eta)} {g (\ eta)}} \ int _ {x} g (\ eta) h (x) e ^ {\ eta T (x)} \, dx \\ = \ int _ {x} T (x) p (x) \, dx + {\ frac {g '(\ eta)} {g (\ eta)}} \ int _ {x} p (x) \, dx \\ = \ operatorname {E} [T (x)] + {\ frac {g '(\ eta)} {g (\ eta)}} \\ = \ operatorname {E} [T (x)] + {\ frac {d} {d \ eta}} \ log g (\ eta) \ end {align}}}{\displaystyle {\begin{aligned}0=g(\eta){\frac {d}{d\eta }}\int _{x}h(x)e^{\eta T(x)}\,dx+g'(\eta)\int _{x}h(x)e^{\eta T(x)}\,dx\\=g(\eta)\int _{x}h(x)\left({\frac {d}{d\eta }}e^{\eta T(x)}\right)\,dx+g'(\eta)\int _{x}h(x)e^{\eta T(x)}\,dx\\=g(\eta)\int _{x}h(x)e^{\eta T(x)}T(x)\,dx+g'(\eta)\int _{x}h(x)e^{\eta T(x)}\,dx\\=\int _{x}T(x)g(\eta)h(x)e^{\eta T(x)}\,dx+{\frac {g'(\eta)}{g(\eta)}}\int _{x}g(\eta)h(x)e^{\eta T(x)}\,dx\\=\int _{x}T(x)p(x)\,dx+{\frac {g'(\eta)}{g(\eta)}}\int _{x}p(x)\,dx\\=\operatorname {E} [T(x)]+{\frac {g'(\eta)}{g(\eta)}}\\=\operatorname {E} [T(x)]+{\frac {d}{d\eta }}\log g(\eta)\end{aligned}}}

Следовательно,

E ⁡ [T (x)] = - dd η log ⁡ g (η) = dd η A (η). {\ displaystyle \ operatorname {E} [T (x)] = - {\ frac {d} {d \ eta}} \ log g (\ eta) = {\ frac {d} {d \ eta}} A ( \ eta).}{\displaystyle \operatorname {E} [T(x)]=-{\frac {d}{d\eta }}\log g(\eta)={\frac {d}{d\eta }}A(\eta).}

Пример 1

В качестве вводного примера рассмотрим гамма-распределение, распределение которого определяется как

p (x) = β α Γ (α) х α - 1 е - β х. {\ displaystyle p (x) = {\ frac {\ beta ^ {\ alpha}} {\ Gamma (\ alpha)}} x ^ {\ alpha -1} e ^ {- \ beta x}.}p(x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha)}}x^{\alpha -1}e^{-\beta x}.

Ссылаясь на приведенную выше таблицу, мы видим, что естественный параметр задается как

η 1 = α - 1, {\ displaystyle \ eta _ {1} = \ alpha -1,}\eta _{1}=\alpha -1,
η 2 = - β, {\ displaystyle \ eta _ {2} = - \ beta,}\eta _{2}=-\beta,

обратные замены:

α = η 1 + 1, {\ displaystyle \ alpha = \ eta _ {1} +1,}\alpha =\eta _{1}+1,
β = - η 2, {\ displaystyle \ beta = - \ eta _ {2},}\ beta = - \ eta _ {2},

достаточная статистика: (log ⁡ x, x), {\ displaystyle (\ log x, x),}{\displaystyle (\log x,x),}и логарифмическая статистическая сумма равна

A (η 1, η 2) = log ⁡ Γ (η 1 + 1) - (η 1 + 1) log ⁡ (- η 2). {\ displaystyle A (\ eta _ {1}, \ eta _ {2}) = \ log \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} +1) \ log (- \ eta _ {2}).}{\displaystyle A(\eta _{1},\eta _{2})=\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2}).}

Мы можем найти среднее значение достаточной статистики следующим образом. Во-первых, для η 1:

E ⁡ [log ⁡ x] = ∂ A (η 1, η 2) ∂ η 1 = ∂ ∂ η 1 (log ⁡ Γ (η 1 + 1) - (η 1 + 1) log ⁡ (- η 2)) знак равно ψ (η 1 + 1) - журнал ⁡ (- η 2) = ψ (α) - журнал ⁡ β, {\ displaystyle {\ begin {align} \ operatorname {E} [\ log x] = {\ frac {\ partial A (\ eta _ {1}, \ eta _ {2})} {\ partial \ eta _ {1}}} = {\ frac {\ partial} {\ partial \ eta _ {1}}} \ left (\ log \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} +1) \ log (- \ eta _ {2}) \ right) \ \ = \ psi (\ eta _ {1} +1) - \ log (- \ eta _ {2}) \\ = \ psi (\ alpha) - \ log \ beta, \ end {выровнено}}}{\displaystyle {\begin{aligned}\operatorname {E} [\log x]={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{1}}}={\frac {\partial }{\partial \eta _{1}}}\left(\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right)\\=\psi (\eta _{1}+1)-\log(-\eta _{2})\\=\psi (\alpha)-\log \beta,\end{aligned}}}

Где ψ (x) {\ displaystyle \ psi (x)}\psi (x)- это дигамма-функция (производная логарифмической гаммы), и мы использовали обратные замены в последний шаг.

Теперь для η 2:

E ⁡ [x] = ∂ A (η 1, η 2) ∂ η 2 = ∂ ∂ η 2 (log ⁡ Γ (η 1 + 1) - (η 1 + 1) журнал ⁡ (- η 2)) знак равно - (η 1 + 1) 1 - η 2 (- 1) = η 1 + 1 - η 2 = α β, {\ Displaystyle {\ begin {align} \ operatorname {E} [x] = {\ frac {\ partial A (\ eta _ {1}, \ eta _ {2})} {\ partial \ eta _ {2}}} = {\ frac {\ partial} {\ partial \ eta _ {2}}} \ left (\ log \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} +1) \ log (- \ eta _ {2}) \ right) \\ = - (\ eta _ {1} +1) {\ frac {1} {- \ eta _ {2}}} (- 1) = {\ frac {\ eta _ {1} + 1} {- \ eta _ {2}}} \\ = {\ frac {\ alpha} {\ beta}}, \ end {align}}}{\displaystyle {\begin{aligned}\operatorname {E} [x]={\frac {\partial A(\eta _{1},\eta _{2})}{\partial \eta _{2}}}={\frac {\partial }{\partial \eta _{2}}}\left(\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right)\\=-(\eta _{1}+1){\frac {1}{-\eta _{2}}}(-1)={\frac {\eta _{1}+1}{-\eta _{2}}}\\={\frac {\alpha }{\beta }},\end{aligned}}}

снова, выполняя обратную замену на последнем шаге.

Чтобы вычислить дисперсию x, мы просто снова дифференцируем:

Var ⁡ (x) = ∂ 2 A (η 1, η 2) ∂ η 2 2 = ∂ ∂ η 2 η 1 + 1 - η 2 = η 1 + 1 η 2 2 = α β 2. {\ displaystyle {\ begin {align} \ operatorname {Var} (x) = {\ frac {\ partial ^ {2} A \ left (\ eta _ {1}, \ eta _ {2} \ right)} {\ partial \ eta _ {2} ^ {2}}} = {\ frac {\ partial} {\ partial \ eta _ {2}}} {\ frac {\ eta _ {1} +1} {- \ eta _ {2}}} \\ = {\ frac {\ eta _ {1} +1} {\ eta _ {2} ^ {2}}} \\ = {\ frac {\ alpha} {\ бета ^ {2}}}. \ End {align}}}{\begin{aligned}\operatorname {Var} (x)={\frac {\partial ^{2}A\left(\eta _{1},\eta _{2}\right)}{\partial \eta _{2}^{2}}}={\frac {\partial }{\partial \eta _{2}}}{\frac {\eta _{1}+1}{-\eta _{2}}}\\={\frac {\eta _{1}+1}{\eta _{2}^{2}}}\\={\frac {\alpha }{\beta ^{2}}}.\end{aligned}}

Все эти вычисления можно выполнить с помощью интегрирования, используя различные свойства гамма-функции , но это требует значительно большей работы.

Пример 2

В качестве другого примера рассмотрим действительную случайную роль X с плотностью

p θ (x) = θ e - x (1 + e - x) θ + 1 {\ displaystyle p _ {\ theta} (x) = {\ frac {\ theta e ^ {- x}} {\ left (1 + e ^ {- x} \ right) ^ {\ theta +1}}}}p_{\theta }(x)={\frac {\theta e^{-x}}{\left(1+e^{-x}\right)^{\theta +1}}}

проиндексировано по параметрам формы θ ∈ (0, ∞) {\ displaystyle \ theta \ in (0, \ infty)}\theta \in (0,\infty)(это называется асимметричным логистическим распределением ). Плотность можно переписать как

e - x 1 + e - x exp ⁡ (- θ log ⁡ (1 + e - x) + log ⁡ (θ)) {\ displaystyle {\ frac {e ^ {- x}} {1 + e ^ {- x}}} \ exp \ left (- \ theta \ log \ left (1 + e ^ {- x} \ right) + \ log (\ theta) \ right)}{\frac {e^{-x}}{1+e^{-x}}}\exp \left(-\theta \log \left(1+e^{-x}\right)+\log(\theta)\right)

Обратите внимание внимание, что это экспоненциальное семейство с естественным параметром

η = - θ, {\ displaystyle \ eta = - \ theta,}\ eta = - \ theta,

достаточная статистика

T = log ⁡ (1 + e - x), {\ displaystyle T = \ log \ left (1 + e ^ {- x} \ right),}T = \ log \ left (1 + e ^ {- x} \ right),

и логарифмическая функция распределения

A (η) = - log ⁡ (θ) = - log ⁡ (- η) {\ displaystyle A (\ eta) = - \ log (\ theta) = - \ log (- \ eta)}A (\ eta) = - \ log (\ theta) = - \ log (- \ eta)

Итак, используя первое тождество,

E ⁡ (log ⁡ (1 + e - Икс)) знак равно E ⁡ (T) знак равно ∂ A (η) ∂ η = ∂ ∂ η [- журнал ⁡ (- η)] = 1 - η = 1 θ, {\ displaystyle \ operatorname {E} (\ log ( 1 + e ^ {- X})) = \ operatorname {E} (T) = {\ frac {\ partial A (\ eta)} {\ partial \ eta}} = {\ frac {\ partial} {\ partial \ eta}} [- \ log (- \ eta) ] = {\ frac {1} {- \ eta}} = {\ frac {1} {\ theta}},}{\displaystyle \operatorname {E} (\log(1+e^{-X}))=\operatorname {E} (T)={\frac {\partial A(\eta)}{\partial \eta }}={\frac {\partial }{\partial \eta }}[-\log(-\eta)]={\frac {1}{-\eta }}={\frac {1}{\theta } },}

и используя второй идентификатор

var ⁡ (log ⁡ (1 + e - X)) Знак равно ∂ 2 A (η) ∂ η 2 = ∂ ∂ η [1 - η] = 1 (- η) 2 = 1 θ 2. {\ Displaystyle \ OperatorName {var} (\ log \ left (1 + e ^ {- X} \ right)) = {\ frac {\ partial ^ {2} A (\ eta)} {\ partial \ eta ^ {2}}} = {\ frac {\ partial} {\ partial \ eta} } \ left [{\ frac {1} {- \ eta}} \ right] = {\ frac {1} {(- \ eta) ^ {2}}} = {\ frac {1} {\ theta ^ { 2}}}.}{\displaystyle \operatorname {var} (\log \left(1+e^{-X}\right))={\frac {\partial ^{2}A(\eta)}{\partial \eta ^{2}}}={\frac {\partial }{\partial \eta }}\left[{\frac {1}{-\eta }}\right]={\frac {1}{(-\eta)^{2}}}={\frac {1}{\theta ^{2}}}.}

Этот пример показывает случай, когда использование этого метода очень просто, но прямое вычисление было бы почти.

Пример 3

Последний пример - пример, в котором интеграция будет сложной. Это случай распределения Уишарта, которое определено над матрицами. Даже получение производных немного сложно, поскольку оно включает себя в себя матричное исчисление .

Из приведенной выше таблицы мы видим, что естественный параметр задается как

η 1 = - 1 2 V - 1, {\ displaystyle {\ boldsymbol {\ eta}} _ {1} = - {\ гидроразрыв {1} {2}} \ mathbf {V} ^ {- 1},}{\boldsymbol {\eta }}_{1}=-{\frac {1}{2}}\mathbf {V} ^{-1},
η 2 = n - p - 1 2, {\ displaystyle \ eta _ {2} = {\ frac {np-1 } {2}},}\eta _{2}={\frac {n-p-1}{2}},

обратные замены:

V = - 1 2 η 1 - 1, {\ displaystyle \ mathbf {V} = - {\ frac {1} {2}} {{\ boldsymbol {\ eta}} _ {1}} ^ {- 1},}\mathbf {V} =-{\frac {1}{2}}{{\boldsymbol {\eta }}_{1}}^{-1},
n = 2 η 2 + p + 1, {\ displaystyle n = 2 \ eta _ {2} + p + 1,}n=2\eta _{2}+p+1,

и достаточной статистикой является (X, log ⁡ | X |). {\ displaystyle (\ mathbf {X}, \ log | \ mathbf {X} |).}{\displaystyle (\mathbf {X},\log |\mathbf {X} |).}

Функция разбиения журнала записана в таблице в различных формах для облегчения дифференциации и обратной подстановки. Мы используем следующие формы:

A (η 1, n) = - n 2 log ⁡ | - η 1 | + журнал ⁡ Γ п (N 2), {\ displaystyle A ({\ boldsymbol {\ eta}} _ {1}, n) = - {\ frac {n} {2}} \ log | - {\ boldsymbol {\ eta}} _ {1} | + \ log \ Gamma _ {p} \ left ({\ frac {n} {2}} \ right),}{\displaystyle A({\boldsymbol {\eta }}_{1},n)=-{\frac {n}{2}}\log |-{\boldsymbol {\eta }}_{1}|+\log \Gamma _{p}\left({\frac {n}{2}}\right),}
A (V, η 2) = (η 2 + p + 1 2) (p log 2 + журнал ⁡ | V |) + журнал ⁡ Γ p (η 2 + p + 1 2). {\ Displaystyle A (\ mathbf {V}, \ eta _ {2}) = \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2+ \ log | \ mathbf {V} |) + \ log \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right). }{\ displaystyle A (\ mathbf {V}, \ eta _ {2}) = \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2+ \ log | \ mathbf {V} |) + \ log \ Гамма _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right).}
Ожидание of X (связанный с η1)

Чтобы дифференцировать по η1, нам понадобится следующее тождество матричного исчисления :

∂ log ⁡ | a X | ∂ X = (X - 1) T {\ Displaystyle {\ frac {\ partial \ log | a \ mathbf {X} |} {\ partial \ mathbf {X}}} = (\ mathbf {X} ^ {- 1}) ^ {\ rm {T}}}{\displaystyle {\frac {\partial \log |a\mathbf {X} |}{\partial \mathbf {X} }}=(\mathbf {X} ^{-1})^{\rm {T}}}

Тогда:

E ⁡ [X] = ∂ A (η 1, ⋯) ∂ η 1 = ∂ ∂ η 1 [- n 2 log ⁡ | - η 1 | + журнал ⁡ Γ п (N 2)] = - N 2 (η 1 - 1) T = N 2 (- η 1 - 1) T = N (V) T = NV {\ Displaystyle {\ begin {align} \ имя оператора {E } [\ mathbf {X}] = {\ frac {\ partial A \ left ({\ boldsymbol {\ eta}} _ {1}, \ cdots \ right)} {\ partial {\ boldsymbol {\ eta}} _ {1}}} \\ = {\ frac {\ partial} {\ partial {\ boldsymbol {\ eta}} _ {1}}} \ left [- {\ frac {n} {2}} \ log | - {\ boldsymbol { \ eta}} _ {1} | + \ log \ Gamma _ {p} \ left ({\ frac {n} {2}} \ right) \ right] \\ = - {\ frac {n} {2}} ({\ boldsymb ol {\ eta}} _ {1} ^ {- 1}) ^ {\ rm {T}} \\ = {\ frac {n} {2}} (- {\ boldsymbol {\ eta}} _ {1} ^ {- 1}) ^ {\ rm {T}} \\ = n (\ mathbf {V}) ^ {\ rm {T}} \\ = n \ mathbf {V} \ end {выровнено}}}{\displaystyle {\begin{aligned}\operatorname {E} [\mathbf {X} ]={\frac {\partial A\left({\boldsymbol {\eta }}_{1},\cdots \right)}{\partial {\boldsymbol {\eta }}_{1}}}\\={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}\left[-{\frac {n}{2}}\log |-{\boldsymbol {\eta }}_{1}|+\log \Gamma _{p}\left({\frac {n}{2}}\right)\right]\\=-{\frac {n}{2}}({\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}\\={\frac {n}{2}}(-{\boldsymbol {\eta }}_{1}^{-1})^{\rm {T}}\\=n(\mathbf {V})^{\rm {T}}\\=n\mathbf {V} \end{aligned}}}

В последней строке используется тот факт, что V симметричен, и поэтому он остается таким же при транспонировании.

Ожидание журнала | X | (связано с η 2)

Теперь для η 2 нам сначала нужно расширить часть логарифмической статистической суммы, которая включает многомерную гамма-функцию :

log ⁡ Γ p (a) = журнал ⁡ (π p (p - 1) 4 ∏ j = 1 p Γ (a + 1 - j 2)) = p (p - 1) 4 журнал ⁡ π + ∑ j = 1 p log ⁡ Γ [a + 1 - j 2] {\ Displaystyle \ log \ Gamma _ {p} (a) = \ log \ left (\ pi ^ {\ frac {p (p-1)} {4}} \ prod _ {j = 1} ^ {p} \ Gamma \ left (a + {\ frac {1-j} {2}} \ right) \ right) = {\ frac {p (p-1)} {4}} \ log \ pi + \ sum _ { j = 1} ^ {p} \ log \ Gamma \ left [a + {\ frac {1-j} {2}} \ right]}{\displaystyle \log \Gamma _{p}(a)=\log \left(\pi ^{\frac {p(p-1)}{4}}\prod _{j=1}^{p}\Gamma \left(a+{\frac {1-j}{2}}\right)\right)={\frac {p(p-1)}{4}}\log \pi +\sum _{j=1}^{p}\log \Gamma \left[a+{\frac {1-j}{2}}\right]}

Нам также нужна функция дигамма :

ψ (x) = ddx журнал ⁡ Γ (x). {\ Displaystyle \ psi (x) = {\ frac {d} {dx}} \ log \ Gamma (x).}{\displaystyle \psi (x)={\frac {d}{dx}}\log \Gamma (x).}

Тогда:

E ⁡ [журнал ⁡ | X |] = ∂ A (…, η 2) ∂ η 2 = ∂ ∂ η 2 [- (η 2 + p + 1 2) (p log ⁡ 2 + log ⁡ | V |) + журнал ⁡ Γ p (η 2 + p + 1 2)] = ∂ ∂ η 2 [(η 2 + p + 1 2) (p log ⁡ 2 + log ⁡ | V |) + p (p - 1) 4 log ⁡ π + ∑ j = 1 p log ⁡ Γ (η 2 + p + 1 2 + 1 - j 2)] = p log ⁡ 2 + журнал ⁡ | V | + ∑ j = 1 p ψ (η 2 + p + 1 2 + 1 - j 2) = p журнал ⁡ 2 + журнал ⁡ | V | + ∑ j = 1 p ψ (n - p - 1 2 + p + 1 2 + 1 - j 2) = p журнал ⁡ 2 + журнал ⁡ | V | + ∑ J знак равно 1 п ψ (N + 1 - J 2) {\ Displaystyle {\ begin {align} \ OperatorName {E} [\ log | \ mathbf {X} |] = {\ frac {\ partial A \ left (\ ldots, \ eta _ {2} \ right)} {\ partial \ eta _ {2}}} \\ = {\ frac {\ partial} {\ partial \ eta _ {2}}} \ left [- \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2+ \ log | \ mathbf {V} |) + \ log \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) \ right] \\ = {\ frac {\ partial} {\ partial \ eta _ {2}}} \ left [\ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ журнал 2+ \ log | \ mathbf {V} |) + {\ frac {p (p-1)} {4}} \ log \ pi + \ sum _ {j = 1} ^ {p} \ log \ Gamma \ left (\ eta _ {2} + {\ frac {p + 1} {2}} + {\ frac {1-j} {2}} \ right) \ right] \\ = p \ log 2+ \ журнал | \ mathbf {V} | + \ sum _ {j = 1} ^ {p} \ psi \ left (\ eta _ {2} + {\ frac {p + 1} {2}} + {\ frac {1-j} {2}} \ right) \\ = p \ log 2+ \ log | \ mathbf {V} | + \ sum _ {j = 1} ^ {p} \ psi \ left ({\ frac {np-1} {2}} + {\ frac {p + 1} {2}} + {\ frac {1- j} {2}} \ right) \\ = p \ log 2+ \ log | \ mathbf {V} | + \ sum _ {j = 1} ^ {p} \ psi \ left ({\ frac {n + 1-j} {2}} \ right) \ end {align}}}{\ displaystyle {\ начать {алиг ned} \ operatorname {E} [\ log | \ mathbf {X} |] = {\ frac {\ partial A \ left (\ ldots, \ eta _ {2} \ right)} {\ partial \ eta _ { 2}}} \\ = {\ frac {\ partial} {\ partial \ eta _ {2}}} \ left [- \ left (\ eta _ {2} + {\ frac {p + 1} {2 }} \ right) (p \ log 2+ \ log | \ mathbf {V} |) + \ log \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2 }}\right)\right]\\={\frac {\partial }{\partial \eta _{2}}}\left[\left(\eta _{2}+{\frac {p+1 }{2}}\right)(p\log 2+\log |\mathbf {V} |)+{\frac {p(p-1)}{4}}\log \pi +\sum _{j =1}^{p}\log \Gamma \left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)\ right]\\=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi \left(\eta _{2}+{\frac {p +1}{2}}+{\frac {1-j}{2}}\right)\\=p\log 2+\log |\mathbf {V} |+\sum _{j=1} ^{p}\psi \left({\frac {np-1}{2}}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right) \\=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi \left({\frac {n+1-j}{2}} \right)\end{aligned}}}

Эта последняя формула указана в распределении Уишарта статья. Оба эти ожидания необходимы при выводе вариационных соотношений обновления Байеса в байесовской сети, включающей распределение Уишарта (которое является сопряженным предшествующим для многомерное нормальное распределение ).

Вычислить эти формулы с помощью интегрирования было бы намного сложнее. Первый, например, потребует матричного интегрирования.

Энтропия

Относительная энтропия

относительная энтропия (расхождение Кульбака - Лейблера, расхождение KL) двух распределений в экспоненциальное семейство имеет простое выражение как расхождение Брегмана между естественными включениями логарифмического нормализатора. Относительная энтропия определяет в терминах интеграла, в то время как дивергенция Брегмана определяет в терминах производной и внутреннего произведения, таким образом, ее легче вычислить и выражение в закрытой форме (при условии, что производная имеет выражение в закрытой форме). Кроме того, дивергенция Брегмана в терминах естественных параметров и лог-нормализатора равна дивергенции Брегмана двойных параметров ожидания в обратном порядке для выпуклой сопряженной функции .

Исправление экспоненциального семейства с помощью логарифмического норматива A {\ displaystyle A}A (с выпуклым сопряженным A ∗ {\ displaystyle A ^ {*}}A^{*}), записывая PA, θ {\ displaystyle P_ {A, \ theta}}{\displaystyle P_{A,\theta }}для распределения в этом семействе, соответствующем фиксированному значению естественного параметра θ {\ displaystyle \ theta}\theta (запись θ ′ {\ displaystyle \ theta '}\theta 'для других значений и с η, η ′ {\ displaystyle \ eta, \ eta'}{\displaystyle \eta,\eta '}для соответствующих параметров двойного ожидания / момента), записывая KL для расхождения KL, и BA {\ displaystyle B_ {A}}{\displaystyle B_{A}}для расхождения Брегмана, расходимости связаны следующим образом:

KL (PA, θ ∥ PA, θ ′) = BA (θ ′ ∥ θ) = BA ∗ (η ∥ η ′). {\ Displaystyle \ mathrm {KL} (P_ {A, \ theta} \ parallel P_ {A, \ theta '}) = B_ {A} (\ theta' \ parallel \ theta) = B_ {A ^ {*}} (\ eta \ parallel \ eta ').}{\displaystyle \mathrm {KL} (P_{A,\theta }\parallel P_{A,\theta '})=B_{A}(\theta '\parallel \theta)=B_{A^{*}}(\eta \parallel \eta ').}

Дивергенция KL условно записывается относительно первого человека, в то время как расхождение Брегмана условно записывается относительно второго второго, и, таким образом, это можно читать как относительная энтропия равна дивергенции Брегмана, второго логнормализатором для переставленных естественных параметров », или, что то же самое,« равной дивергенции Брегмана, определенным двойным логарифмическим нормализатором для параметров ожидания ».

Выведение максимальной энтропии

Экспоненциальные возникают естественным образом как ответ на следующий вопрос: каково распределение максимальной энтропии, согласовое с ограничениями на ожидаемые значения?

информационная энтропия распределения вероятностей dF (x) может быть вычислена только относительно некоторого другого распределения вероятностей (или, в более общем смысле, положительной меры), и оба меры должны быть взаимно абсолютно непрерывными. Соответственно, нам нужно выбрать эталонную меру dH (x) с той же поддержкой, что и dF (x).

Энтропия dF (x) относительно dH (x) равна

S [d F ∣ d H] = - ∫ d F d H log ⁡ d F d H d H {\ displaystyle S [dF \ mid dH] = - \ int {\ frac {dF} {dH}} \ log {\ frac {dF} {dH}} \, dH}{\ displaystyle S [dF \ mid dH] = - \ int {\ frac {dF} {dH}} \ log {\ frac {dF} {dH}} \, dH}

или

S [d F ∣ d H] = ∫ журнал ⁡ d H d F d F {\ displaystyle S [dF \ mid dH] = \ int \ log {\ frac {dH} {dF}} \, dF}{\displaystyle S[dF\mid dH]=\int \log {\frac {dH}{dF}}\,dF}

где dF / dH и dH / dF - производные Радона - Никодима. Обычное определение энтропии для дискретного распределения, поддерживаемого множеством I, а именно

S = - ∑ i ∈ I pi log ⁡ pi {\ displaystyle S = - \ sum _ {i \ in I} p_ {i} \ log p_ {i}}{\ displaystyle S = - \ sum _ {i \ in I} p_ {i} \ log p_ {i}}

предполагает, хотя на это указывает, что dH выбрана в счетной мере на I.

Рассмотрим теперь набор наблюдаемых величин (случайные величины) T я. Распределение вероятности dF, энтропия которого по отношению к dH является наибольшим при условии, что ожидаемое значение T i равно t i, является экспоненциальным семейством с dH в качестве эталона. измерить и измерить (T 1,..., T n) в качестве достаточной статистики.

Представляет собой простое вариационное вычисление с использованием множителей Лагранжа. Нормализация вводится путем принятия T 0 = 1 в качестве одного из ограничений. Естественные значения распределения множителей Лагранжа, коэффициент нормализации - множитель Лагранжа, связанный с T 0.

. Примеры таких выводов см. В разделе Максимальное распределение вероятностей энтропии.

Роль в статистике

Классическая оценка: достаточность

Согласно Питман - Купман - Теорема Дармуа, среди семейств вероятностных распределений области значений не зависит от оцениваемого, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной по мере увеличения размера выборки.

Менее кратко, предположим, что X k, (где k = 1, 2, 3,... n) являются независимыми, одинаково распределенными случайными величинами. Только если их распределение является одним из экспоненциальных семейств распределений, существует достаточная статистика T(X1,..., X n), число из скаляров компоненты не увеличиваются при увеличении размера выборки; статистика T может быть вектором или одиночным скалярным числом, но каким бы он ни был, его размер не будет ни увеличиваться, ни уменьшаться при получены дополнительные данные.

В качестве контрпримера, если эти условия ослаблены, равном распределенных (либо дискретное, либо непрерывное, с одной или обеими неизвестными границами) имеет достаточную статистику, а именно максимальный выбор, минимум выборки и размер выборки, но не образует экспоненциальное семейство, область значений зависит от параметров.

Байесовская оценка: сопряженные распределения

Экспоненциальные семейства также важны в байесовской статистике. В байесовской статистике апостериорное распределение умножается на функцию правдоподобия и затем нормализуется для получения апостериорного распределения. В случае вероятности, которая принадлежит экспоненциальному семейству, существует сопряженный предшествующий, который часто также находится в экспоненциальном семействе. Сопряженное априорное π для программы η {\ displaystyle {\ boldsymbol {\ eta}}}{\ boldsymbol {\ eta }} экспоненциального семейства

f (x ∣ η) = h (x) exp ⁡ (η TT (Икс) - A (η)) {\ Displaystyle F (х \ mid {\ boldsymbol {\ eta}}) = h (x) \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ mathbf {T} (x) -A ({\ boldsymbol {\ eta}}) \ right)}{\displaystyle f(x\mid {\boldsymbol {\eta }})=h(x)\exp \left({\boldsymbol {\eta }}^{\rm {T}}\mathbf {T} (x)-A({\boldsymbol {\eta }})\right)}

определяется как

p π (η ∣ χ, ν) = f (χ, ν) ехр ⁡ (η T χ - ν A (η)), {\ displaystyle p _ {\ pi} ({\ boldsymbol {\ eta}} \ mid {\ boldsymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}} - \ nu A ({\ boldsymbol {\ eta} }) \ right),}p _ {\ pi} ({\ boldsymbol {\ eta }} \ mid {\ boldsymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T }} {\ boldsymbol {\ chi}} - \ nu A ({\ boldsymbol {\ eta}}) \ right),

или эквивалентно

p π (η ∣ χ, ν) = f (χ, ν) g (η) ν exp ⁡ (η T χ), χ ∈ R s {\ displaystyle p _ {\ pi} ({\ boldsymbol {\ eta}} \ mid {\ boldsymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}} \ right), \ qquad {\ boldsymbol {\ chi}} \ in \ mathbb {R} ^ {s}}p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu)=f({\boldsymbol {\chi }},\nu)g({\boldsymbol {\eta }})^{\nu }\exp \left({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }}\right),\qquad {\boldsymbol {\chi }}\in \mathbb {R} ^{s}

где s - размер из η {\ displaystyle {\ boldsymbol {\ eta}}}{\ boldsymbol {\ eta }} и ν>0 {\ displaystyle \ nu>0}\nu>0 и χ {\ displaystyle {\ chimbol}}}}{\boldsymbol {\chi }}- это гиперпараметры (параметры, управляющие объекты). ν {\ displaystyle \ nu}\nu соответствует эффективному количеству наблюдений, вносимых предыдущим распределением, а χ {\ displaystyle {\ boldsymbol {\ chi}}}{\boldsymbol {\chi }}соответствует общей сумме, которую эти псевдонаблюдения вносит в достаточную статистику по всем наблюдениям и псевдонаблюдениям. f (χ, ν) {\ displaystyle f ({\ boldsymbol {\ chi}}, \ nu)}f({\boldsymbol {\chi }},\nu)- константа нормализации, которая автоматически оставшимися функциями и служит для обеспечения того, чтобы функция была функция плотности вероятности (т. е. нормализованной ). A (η) {\ displaystyle A ({\ boldsymbol {\ eta}})}A ({\ boldsymbol {\ eta}}) и, эквивалентно, г (η) {\ displaystyle g ({\ boldsymbol {\ eta }})}g({\boldsymbol {\eta }})- те же функции, что и определяет распределение, по которому сопряженным априорным.

Сопряженное априорное распределение - это такое, которое в сочетании с вероятностью и нормализовано дает апостериорное распределение, которое имеет тот же тип, что и априорное. Например, если кто-то оценивает вероятность успеха биномиального распределения, то, если он решает использовать бета-распределение в качестве априорного, апостериорное является другим бета-распределением. Это делает расчет апостериорного отдела особенно простым. Точно так же, если оценивается параметр распределения Пуассона, использование предшествующей гаммы приведет к другой апостериорной гамме. Сопряженные приоры часто очень гибкие и могут быть очень удобными. Однако, если чье-либо мнение о вероятном значении тета-параметра бинома представлено (скажем) бимодальным (двугорбым) априорным распределением, то это не может быть представлено бета-распределением. Однако это может быть представлено с использованием плотности смеси в качестве предшествующей, здесь комбинацией двух бета-распределений; это форма гиперприора.

Произвольная вероятность не будет принадлежать экспоненциальному семейству, и, таким образом, в общем случае не существует сопряженных априорных значений. Затем необходимо будет вычислить апостериорное значение численными методами.

Чтобы показать, что вышеупомянутое априорное распределение является сопряженным априорным, мы можем вывести апостериорное.

Во-первых, предположим, что вероятность единичного наблюдения следует экспоненциальному семейству, параметризованному с использованием его естественного параметра:

p F (x ∣ η) = h (x) g (η) exp ⁡ (η TT (x)) {\ displaystyle p_ {F} (x \ mid {\ boldsymbol {\ eta}}) = h (x) g ({\ boldsymbol {\ eta}}) \ exp \ left ({\ boldsymbol { \ eta}} ^ {\ rm {T}} \ mathbf {T} (x) \ right)}p_ {F} (x \ mid {\ boldsymbol {\ eta}}) = h (x) g ({\ boldsymbol {\ eta}}) \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ mathbf {T} (x) \ right)

Тогда для данных X = (x 1,…, xn) {\ displaystyle \ mathbf { X} = (x_ {1}, \ ldots, x_ {n})}\mathbf {X} =(x_{1},\ldots,x_{n}), вероятность вычисляется следующим образом:

p (X ∣ η) = (∏ i = 1 nh (xi)) г (η) N ехр ⁡ (η T ∑ я знак равно 1 N T (xi)) {\ displaystyle p (\ mathbf {X} \ mid {\ boldsymbol {\ eta}}) = \ left (\ prod _ {i = 1} ^ {n} h (x_ {i}) \ right) g ({\ boldsymbol {\ eta}}) ^ {n} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ right)}p(\mathbf {X} \mid {\boldsymbol {\eta }})=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)

Тогда для указанного выше сопряженного априорного значения:

p π (η ∣ χ, ν) знак равно е (χ, ν) г (η) ν ехр ⁡ (η T χ) ∝ g (η) ν ехр ⁡ (η T χ) {\ Displaystyle {\ begin {выровнено} p _ {\ pi } ({\ boldsymbol {\ eta}} \ mid {\ bolds ymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \ propto g ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \ end {выравнивание}}}{\begin{aligned}p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu)=f({\boldsymbol {\chi }},\nu)g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\propto g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\end{aligned}}

Затем мы можем вычислить апостериорную функцию следующим образом:

p (η ∣ X, χ, ν) ∝ p (X ∣ η) p π (η ∣ χ, ν) = (∏ i = 1 nh (xi)) g (η) n exp ⁡ (η T ∑ i = 1 n T (xi)) f (χ, ν) g (η) ν exp ⁡ (η T χ) ∝ g (η) n exp ⁡ (η T ∑ i = 1 n T (xi)) g (η) ν exp ⁡ (η T χ) ∝ g (η) ν + N ехр ⁡ (η T (χ + ∑ я знак равно 1 N T (xi))) {\ displaystyle {\ begin {align} p ({\ boldsymbol {\ eta}} \ mid \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) \ propto p (\ mathbf {X} \ mid {\ boldsymbol {\ eta}}) p _ {\ pi} ({\ boldsymbol {\ eta}} \ mid { \ boldsymbol {\ chi}}, \ nu) \\ = \ left (\ prod _ {i = 1} ^ {n} h (x_ {i}) \ right) g ({\ boldsymbol {\ eta}}) ^ {n} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ справа) f ({\ boldsymbol {\ chi}}, \ nu) g ({\ bol dsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \\ \ propto g ({\ boldsymbol {\ eta}}) ^ {n} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ right) g ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \\ \ propto g ({\ boldsymbol {\ eta}}) ^ {\ nu + n} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ left ({\ boldsymbol {\ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ right) \ right) \ end {align}}}{\begin{aligned}p({\boldsymbol {\eta }}\mid \mathbf {X},{\boldsymbol {\chi }},\nu)\propto p(\mathbf {X} \mid {\boldsymbol {\eta }})p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu)\\=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)f({\boldsymbol {\chi }},\nu)g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\\propto g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\rm {T}}{\boldsymbol {\chi }})\\\propto g({\boldsymbol {\eta }})^{\nu +n}\exp \left({\boldsymbol {\eta }}^{\rm {T}}\left({\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\right)\end{aligned}}

Последняя строка ядро ​​ апостериорного распределения, т.е.

p (η ∣ X, χ, ν) = p π (η ∣ χ + ∑ i = 1 n T (xi), ν + n) { \ displaystyle p ({\ boldsymbol {\ eta}} \ mid \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) = p _ {\ pi} \ left ({\ boldsymbol {\ eta}} \ mid {\ boldsymbol {\ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}), \ nu + n \ right)}p ({\ boldsymbol {\ eta}} \ mid \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) = p _ {\ pi} \ left ({\ boldsymbol {\ eta}} \ mid {\ boldsymbol {\ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}), \ nu + n \ right)

Это показывает, что апостериорная имеет ту же форму, что и предыдущий.

Данные X входят в это уравнение только в выражении

T (X) = ∑ i = 1 n T (xi), {\ displaystyle \ mathbf {T} ( \ mathbf {X}) = \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}),}\mathbf {T} (\mathbf {X})=\sum _{i=1}^{n}\mathbf {T} (x_{i}),

что называется достаточной статистикой данных.. То есть значения достаточной статистики достаточно, чтобы полностью определить апостериорное распределение. Сами фактические точки данных не нужны, и все наборы точек данных с одинаковой достаточной статистикой будут иметь одинаковое распределение. Это важно, потому что размер достаточной статистики не увеличивается с размером данных - он имеет столько же компонентов, сколько компонентов η {\ displaystyle {\ boldsymbol {\ eta}}}{\ boldsymbol {\ eta }} (эквивалентно количеству параметров распределения одной точки данных).

Уравнения обновления следующие:

χ ′ = χ + T (X) = χ + ∑ i = 1 n T (xi) ν ′ = ν + n {\ displaystyle {\ begin { выровнено} {\ boldsymbol {\ chi}} '= {\ boldsymbol {\ chi}} + \ mathbf {T} (\ mathbf {X}) \\ = {\ boldsymbol {\ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \\\ nu '= \ nu + n \ end {align}}}{\begin{aligned}{\boldsymbol {\chi }}'={\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X})\\={\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\\\nu '=\nu +n\end{aligned}}

Это показывает, что уравнения обновления могут быть записаны просто с точки зрения количества точек данных и достаточной статистики данных. Это можно ясно увидеть в различных примерах уравнений обновления, показанных на сопряженной предыдущей странице . Из-за того, как вычисляется достаточная статистика, она обязательно включает в себя суммы компонентов данных (в некоторых случаях замаскированные под продукты или другие формы - продукт может быть записан в виде суммы логарифмов ). Случаи, когда уравнения обновления для конкретных распределений не точно соответствуют приведенным выше формам, - это случаи, когда сопряженное предшествующее выражение было выражено с использованием другой параметризации, чем та, которая создает сопряженное предшествующее значение вышеуказанной формы - часто особенно потому, что приведенная выше форма определяется по естественному параметру η {\ displaystyle {\ boldsymbol {\ eta}}}{\ boldsymbol {\ eta }} , тогда как сопряженные априорные значения обычно определяются по фактическому параметру θ. {\ displaystyle {\ boldsymbol {\ theta}}.}{\ boldsymbol {\ theta }}.

Проверка гипотез: наиболее эффективные тесты с равномерным распределением

Однопараметрическое экспоненциальное семейство имеет монотонное неубывающее отношение правдоподобия в достаточной статистике T (x) при условии, что η (θ) не убывает. Как следствие, существует равномерно наиболее мощный тест для проверки гипотезы H0: θ ≥ θ 0 vs. H 1 : θ < θ0.

Обобщенные линейныемодели

Экспоненциальные семейства образуют основу для функций распределения, используемых в обобщенных линейных моделях, классе моделей, охватывающих множество часто используемых регрессионных моделей в статистике.

См. Также

Сноски

Ссылки

Цитаты

Источники

Дополнительная литература

  • Фармейр, Людвиг; Тутц, Г. (1994). Многомерное статистическое моделирование на основе обобщенных линейных моделей. Springer. С. 18–22, 345–349. ISBN 0-387-94233-5.
  • Кинер, Роберт У. (2006). Теоретическая статистика: темы основного курса. Springer. С. 27–28, 32–33. ISBN 978-0-387-93838-7.
  • Lehmann, E.L.; Казелла, Г. (1998). Теория точечного оценивания (2-е изд.). сек. 1.5. ISBN 0-387-98502-6.

Внешние ссылки

Последняя правка сделана 2021-05-19 10:02:28
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте