Распределение вероятностей максимальной энтропии

редактировать

В статистике и теории информации максимальное распределение вероятностей энтропии имеет энтропию, по крайней мере, такую же большую, как у всех других членов указанного класса распределений вероятностей. Согласно принципу максимальной энтропии, если о распределении ничего не известно, кроме того, что оно принадлежит к определенному классу (обычно определяемому в терминах определенных свойств или мер), то распределение с наибольшей энтропией следует выбирать как наименее информативное. дефолт. Мотивация двоякая: во-первых, максимизация энтропии сводит к минимуму количество априорной информации. встроен в раздачу; во-вторых, многие физические системы со временем стремятся к максимальным конфигурациям энтропии.

СОДЕРЖАНИЕ
  • 1 Определение энтропии и дифференциальной энтропии
  • 2 Распределения с измеренными константами
    • 2.1 Непрерывный случай
    • 2.2 Дискретный корпус
    • 2.3 Доказательство в случае ограничений-равенств
    • 2.4 Уникальность максимума
    • 2.5 Предостережения
  • 3 Примеры
    • 3.1 Равномерные и кусочно-однородные распределения
    • 3.2 Положительное и указанное среднее: экспоненциальное распределение
    • 3.3 Заданная дисперсия: нормальное распределение
    • 3.4 Дискретные распределения с заданным средним значением
    • 3.5 Круговые случайные величины
    • 3.6 Максимизатор для указанного среднего, дисперсии и перекоса
    • 3.7 Максимизатор для указанной меры риска среднего и отклонения
    • 3.8 Другие примеры
  • 4 См. Также
  • 5 Примечания
  • 6 цитат
  • 7 ссылки
Определение энтропии и дифференциальной энтропии
Дополнительная информация: Энтропия (теория информации)

Если - дискретная случайная величина с распределением, заданным формулой Икс {\ displaystyle X}

Pr ( Икс знак равно Икс k ) знак равно п k  для  k знак равно 1 , 2 , {\ displaystyle \ operatorname {Pr} (X = x_ {k}) = p_ {k} \ quad {\ t_dv {for}} k = 1,2, \ ldots}

то энтропия определяется как Икс {\ displaystyle X}

ЧАС ( Икс ) знак равно - k 1 п k бревно п k . {\ Displaystyle H (X) = - \ sum _ {k \ geq 1} p_ {k} \ log p_ {k}.}

Если это непрерывная случайная величина с плотностью вероятности, то дифференциальной энтропии в определяется как Икс {\ displaystyle X} п ( Икс ) {\ displaystyle p (x)} Икс {\ displaystyle X}

ЧАС ( Икс ) знак равно - - п ( Икс ) бревно п ( Икс ) d Икс . {\ Displaystyle H (X) = - \ int _ {- \ infty} ^ {\ infty} p (x) \ log p (x) \, dx.}

Количество всегда считается равным нулю. п ( Икс ) бревно п ( Икс ) {\ Displaystyle р (х) \ журнал р (х)} п ( Икс ) знак равно 0 {\ displaystyle p (x) = 0}

Это частный случай более общих форм, описанных в статьях Энтропия (теория информации), Принцип максимальной энтропии и дифференциальная энтропия. В связи с максимальным распределением энтропии это единственное необходимое, потому что максимизация также максимизирует более общие формы. ЧАС ( Икс ) {\ Displaystyle H (X)}

Основание логарифма не имеет значения, если одно и то же используется последовательно: изменение основания просто приводит к изменению масштаба энтропии. Теоретики информации могут предпочесть использовать основание 2 для выражения энтропии в битах ; математики и физики часто предпочитают натуральный логарифм, в результате чего энтропия выражается в единицах нат.

Однако выбор меры имеет решающее значение для определения энтропии и результирующего максимального распределения энтропии, даже несмотря на то, что обычное обращение к мере Лебега часто защищается как «естественное». d Икс {\ displaystyle dx}

Распределения с измеренными константами

Многие статистические распределения, представляющие применимый интерес, - это те, для которых моменты или другие измеримые величины должны быть постоянными. Следующая теорема Людвига Больцмана дает форму плотности вероятности при этих ограничениях.

Непрерывный случай

Пусть S является замкнутым подмножеством из действительных чисел R, и мы решили задать п измеримых функций F 1,..., х п и п чисел 1,..., н. Мы рассматриваем класс C всех действительных случайных величин, которые поддерживаются на S (т.е. чья функция плотности равна нулю вне S) и которые удовлетворяют условиям n моментов:

E ( ж j ( Икс ) ) а j  для  j знак равно 1 , , п {\ displaystyle \ operatorname {E} (f_ {j} (X)) \ geq a_ {j} \ quad {\ t_dv {for}} j = 1, \ ldots, n}

Если в C есть член, функция плотности которого положительна всюду в S, и если существует максимальное распределение энтропии для C, то его плотность вероятности p ( x) имеет следующий вид:

п ( Икс ) знак равно exp ( j знак равно 0 п λ j ж j ( Икс ) )  для всех  Икс S {\ displaystyle p (x) = \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x) \ right) \ quad {\ t_dv {для всех} } x \ in S}

где мы предполагаем, что. Константа и n множителей Лагранжа решают задачу оптимизации с ограничениями (это условие обеспечивает интеграцию до единицы): ж 0 ( Икс ) знак равно 1 {\ displaystyle f_ {0} (x) = 1} λ 0 {\ displaystyle \ lambda _ {0}} λ знак равно ( λ 1 , , λ п ) {\ displaystyle {\ boldsymbol {\ lambda}} = (\ lambda _ {1}, \ ldots, \ lambda _ {n})} а 0 знак равно 1 {\ displaystyle a_ {0} = 1} п {\ displaystyle p}

Максимум λ 0 ; λ { j знак равно 0 п λ j а j - exp ( j знак равно 0 п λ j ж j ( Икс ) ) d Икс } s ты б j е c т т о : λ 0 {\ displaystyle \ max _ {\ lambda _ {0}; {\ boldsymbol {\ lambda}}} \ left \ {\ sum _ {j = 0} ^ {n} \ lambda _ {j} a_ {j} - \ int \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x) \ right) dx \ right \} \ quad \ mathrm {subject \; для: \; \;} {\ boldsymbol {\ lambda}} \ geq \ mathbf {0}}

Используя условия Каруша – Куна – Таккера, можно показать, что задача оптимизации имеет единственное решение, поскольку целевая функция в оптимизации является вогнутой. λ {\ displaystyle {\ boldsymbol {\ lambda}}}

Обратите внимание, что если моментными условиями являются равенства (а не неравенства), то есть

E ( ж j ( Икс ) ) знак равно а j  для  j знак равно 1 , , п , {\ displaystyle \ operatorname {E} (f_ {j} (X)) = a_ {j} \ quad {\ t_dv {for}} j = 1, \ ldots, n,}

затем условие ограничения отбрасывается, что делает оптимизацию по множителям Лагранжа неограниченной. λ 0 {\ displaystyle {\ boldsymbol {\ lambda}} \ geq \ mathbf {0}}

Дискретный корпус

Предположим, есть (конечное или бесконечное) дискретное подмножество вещественных чисел, и мы решили указать функции f 1,..., f n и n чисел a 1,..., a n. Мы рассматриваем класс C всех дискретных случайных величин X, которые поддерживаются на S и удовлетворяют условиям n моментов S знак равно { Икс 1 , Икс 2 , . . . } {\ Displaystyle S = \ {x_ {1}, x_ {2},... \}} п {\ displaystyle n}

E ( ж j ( Икс ) ) а j  для  j знак равно 1 , , п {\ displaystyle \ operatorname {E} (f_ {j} (X)) \ geq a_ {j} \ quad {\ t_dv {for}} j = 1, \ ldots, n}

Если существует член C, который присваивает положительную вероятность всем членам S, и если существует максимальное распределение энтропии для C, то это распределение имеет следующую форму:

Pr ( Икс знак равно Икс k ) знак равно exp ( j знак равно 0 п λ j ж j ( Икс k ) )  для  k знак равно 1 , 2 , {\ displaystyle \ operatorname {Pr} (X = x_ {k}) = \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x_ {k}) \ right) \ quad {\ t_dv {for}} k = 1,2, \ ldots}

где мы предполагаем, что и константы решают задачу оптимизации с ограничениями с помощью: ж 0 знак равно 1 {\ displaystyle f_ {0} = 1} λ 0 , λ знак равно ( λ 1 , , λ п ) {\ displaystyle \ lambda _ {0}, \; {\ boldsymbol {\ lambda}} = (\ lambda _ {1}, \ ldots, \ lambda _ {n})} а 0 знак равно 1 {\ displaystyle a_ {0} = 1}

Максимум λ 0 ; λ { j знак равно 0 п λ j а j - k 1 exp ( j знак равно 0 п λ j ж j ( Икс k ) ) } s ты б j е c т т о : λ 0 {\ displaystyle \ max _ {\ lambda _ {0}; {\ boldsymbol {\ lambda}}} \ left \ {\ sum _ {j = 0} ^ {n} \ lambda _ {j} a_ {j} - \ sum _ {k \ geq 1} \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x_ {k}) \ right) \ right \} \ quad \ mathrm {subject \; to: \; \;} {\ boldsymbol {\ lambda}} \ geq \ mathbf {0}}

Опять же, если моментными условиями являются равенства (а не неравенства), то условие ограничения не присутствует в оптимизации. λ 0 {\ displaystyle {\ boldsymbol {\ lambda}} \ geq \ mathbf {0}}

Доказательство в случае ограничений-равенств

В случае ограничений типа равенства эта теорема доказывается с помощью вариационного исчисления и множителей Лагранжа. Ограничения можно записать как

- ж j ( Икс ) п ( Икс ) d Икс знак равно а j {\ displaystyle \ int _ {- \ infty} ^ {\ infty} f_ {j} (x) p (x) dx = a_ {j}}

Мы рассматриваем функционал

J ( п ) знак равно - п ( Икс ) пер п ( Икс ) d Икс - η 0 ( - п ( Икс ) d Икс - 1 ) - j знак равно 1 п λ j ( - ж j ( Икс ) п ( Икс ) d Икс - а j ) {\ Displaystyle J (p) = \ int _ {- \ infty} ^ {\ infty} p (x) \ ln {p (x)} dx- \ eta _ {0} \ left (\ int _ {- \ infty} ^ {\ infty} p (x) dx-1 \ right) - \ sum _ {j = 1} ^ {n} \ lambda _ {j} \ left (\ int _ {- \ infty} ^ {\ infty} f_ {j} (x) p (x) dx-a_ {j} \ right)}

где и - множители Лагранжа. Нулевое ограничение обеспечивает вторую аксиому вероятности. Другие ограничения заключаются в том, что измерениям функции задаются постоянные по порядку. Энтропия достигает экстремума, когда функциональная производная равна нулю: η 0 {\ displaystyle \ eta _ {0}} λ j , j 1 {\ displaystyle \ lambda _ {j}, j \ geq 1} п {\ displaystyle n}

δ J δ п ( п ) знак равно пер п ( Икс ) + 1 - η 0 - j знак равно 1 п λ j ж j ( Икс ) знак равно 0 {\ displaystyle {\ frac {\ delta J} {\ delta p}} \ left (p \ right) = \ ln {p (x)} + 1- \ eta _ {0} - \ sum _ {j = 1 } ^ {n} \ lambda _ {j} f_ {j} (x) = 0}

Читателю станет упражнением, что этот экстремум действительно является максимумом. Следовательно, максимальное распределение вероятностей энтропии в этом случае должно иметь вид () λ 0 знак равно η 0 - 1 {\ displaystyle \ lambda _ {0}: = \ eta _ {0} -1}

п ( Икс ) знак равно е - 1 + η 0 е j знак равно 1 п λ j ж j ( Икс ) знак равно exp ( j знак равно 0 п λ j ж j ( Икс ) ) . {\ displaystyle p (x) = e ^ {- 1+ \ eta _ {0}} \ cdot e ^ {\ sum _ {j = 1} ^ {n} \ lambda _ {j} f_ {j} (x)} = \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x) \ right) \ ;.}

Доказательство дискретной версии по сути такое же.

Уникальность максимум

Предположим, есть распределения, удовлетворяющие ограничениям на ожидание. Допуская и учитывая распределение, становится ясно, что это распределение удовлетворяет ограничениям на ожидание и, кроме того, имеет поддержку. Исходя из основных фактов об энтропии, он утверждает, что это. Принимая пределы и соответственно урожайности. п {\ displaystyle p} п {\ displaystyle p '} α ( 0 , 1 ) {\ Displaystyle \ альфа \ в (0,1)} q знак равно α п + ( 1 - α ) п {\ Displaystyle д = \ альфа \ CDOT р + (1- \ альфа) \ CDOT р '} s ты п п ( q ) знак равно s ты п п ( п ) s ты п п ( п ) {\ Displaystyle \ mathrm {Supp} (q) = \ mathrm {Supp} (p) \ cup \ mathrm {Supp} (p ')} ЧАС ( q ) α ЧАС ( п ) + ( 1 - α ) ЧАС ( п ) {\ displaystyle {\ mathcal {H}} (q) \ geq \ alpha {\ mathcal {H}} (p) + (1- \ alpha) {\ mathcal {H}} (p ')} α 1 {\ displaystyle \ alpha \ longrightarrow 1} α 0 {\ displaystyle \ alpha \ longrightarrow 0} ЧАС ( q ) ЧАС ( п ) , ЧАС ( п ) {\ displaystyle {\ mathcal {H}} (q) \ geq {\ mathcal {H}} (p), {\ mathcal {H}} (p ')}

Отсюда следует, что распределение, удовлетворяющее ограничениям на ожидание и максимизирующее энтропию, обязательно должно иметь полную поддержку, т. Е. Распределение почти везде положительно. Отсюда следует, что максимизирующее распределение должно быть внутренней точкой в ​​пространстве распределений, удовлетворяющих ограничениям на ожидание, то есть оно должно быть локальным экстремумом. Таким образом, достаточно показать, что локальный экстремум уникален, чтобы показать и то, и другое, что максимизирующее энтропию распределение уникально (и это также показывает, что локальный экстремум является глобальным максимумом).

Допустим, это локальные крайности. Переформулируя приведенные выше вычисления, они характеризуются параметрами via и аналогично для, где. Теперь отметим ряд тождеств: через удовлетворение ограничений на ожидание и использование градиентов / производных по направлениям, и аналогично для. Позволяя получить: п , п {\ displaystyle p, p '} λ , λ р п {\ displaystyle {\ vec {\ lambda}}, {\ vec {\ lambda}} '\ in \ mathbb {R} ^ {n}} п ( Икс ) знак равно е λ , ж ( Икс ) C ( λ ) {\ displaystyle p (x) = {\ frac {e ^ {\ langle {\ vec {\ lambda}}, {\ vec {f}} (x) \ rangle}} {C ({\ vec {\ lambda}) })}}} п {\ displaystyle p '} C ( λ ) знак равно Икс р е λ , ж ( Икс )   d Икс {\ displaystyle C ({\ vec {\ lambda}}) = \ int _ {x \ in \ mathbb {R}} e ^ {\ langle {\ vec {\ lambda}}, {\ vec {f}} ( x) \ rangle} ~ dx} D бревно ( C ( ) ) | λ знак равно D C ( ) C ( ) | λ знак равно E п [ ж ( Икс ) ] знак равно а {\ displaystyle D \ log (C (\ cdot)) \ vert _ {\ vec {\ lambda}} = \ left. {\ frac {DC (\ cdot)} {C (\ cdot)}} \ right | _ {\ vec {\ lambda}} = \ mathbb {E} _ {p} [{\ vec {f}} (X)] = {\ vec {a}}} λ {\ displaystyle {\ vec {\ lambda}} '} ты знак равно λ - λ р п {\ displaystyle u = {\ vec {\ lambda}} '- {\ vec {\ lambda}} \ in \ mathbb {R} ^ {n}}

0 знак равно ты , а - а знак равно D ты бревно ( C ( ) ) | λ - D ты бревно ( C ( ) ) | λ знак равно D ты 2 бревно ( C ( ) ) | γ {\ displaystyle 0 = \ langle u, {\ vec {a}} - {\ vec {a}} \ rangle = D_ {u} \ log (C (\ cdot)) \ vert _ {{\ vec {\ lambda }} '} - D_ {u} \ log (C (\ cdot)) \ vert _ {\ vec {\ lambda}} = D_ {u} ^ {2} \ log (C (\ cdot)) \ vert _ {\ vec {\ gamma}}}

где для некоторых. Дальнейшие вычисления γ знак равно θ λ + ( 1 - θ ) λ {\ displaystyle {\ vec {\ gamma}} = \ theta {\ vec {\ lambda}} + (1- \ theta) {\ vec {\ lambda}} '} θ ( 0 , 1 ) {\ Displaystyle \ тета \ в (0,1)}

0 знак равно D ты 2 бревно ( C ( ) ) | γ знак равно D ты ( D ты C ( ) C ( ) ) | γ знак равно D ты 2 C ( ) C ( ) | γ - ( D ты C ( ) ) 2 C ( ) 2 | γ знак равно E q [ ( ты , ж ( Икс ) ) 2 ] - ( E q [ ты , ж ( Икс ) ] ) 2 знак равно V а р q ( ты , ж ( Икс ) ) {\ displaystyle {\ begin {array} {rcl} 0 amp; = amp; D_ {u} ^ {2} \ log (C (\ cdot)) \ vert _ {\ vec {\ gamma}} \\ amp; = amp; \ left. D_ {u} \ left ({\ frac {D_ {u} C (\ cdot)} {C (\ cdot)}} \ right) \ right | _ {\ vec {\ gamma}} \\ amp; = amp; \ слева. {\ frac {D_ {u} ^ {2} C (\ cdot)} {C (\ cdot)}} \ right | _ {\ vec {\ gamma}} - \ left. {\ frac {(D_ {u} C (\ cdot)) ^ {2}} {C (\ cdot) ^ {2}}} \ right | _ {\ vec {\ gamma}} \\ amp; = amp; \ mathbb {E} _ { q} [(\ langle u, {\ vec {f}} (X) \ rangle) ^ {2}] - \ left (\ mathbb {E} _ {q} [\ langle u, {\ vec {f} } (X) \ rangle] \ right) ^ {2} = \ mathrm {Var} _ {q} (\ langle u, {\ vec {f}} (X) \ rangle) \\\ end {array}} }

где аналогично приведенному выше распределению, только параметризовано. Предполагая, что никакая нетривиальная линейная комбинация наблюдаемых почти всюду (п.в.) константа (что, например, имеет место, если наблюдаемые независимы, а не п.в. константами), верно, что имеет ненулевую дисперсию, если только. Таким образом, из приведенного выше уравнения ясно, что так и должно быть. Следовательно, параметры, характеризующие локальные экстремумы, идентичны, а значит, идентичны сами распределения. Таким образом, локальный экстремум уникален, и, согласно приведенному выше обсуждению, максимум уникален - при условии, что локальный экстремум действительно существует. q {\ displaystyle q} γ {\ displaystyle {\ vec {\ gamma}}} ты , ж ( Икс ) {\ displaystyle \ langle u, {\ vec {f}} (X) \ rangle} ты знак равно 0 {\ displaystyle u = 0} λ - λ знак равно ты знак равно 0 {\ displaystyle {\ vec {\ lambda}} '- {\ vec {\ lambda}} = u = 0} п , п {\ displaystyle p, p '}

Предостережения

Обратите внимание, что не все классы распределений содержат максимальное распределение энтропии. Возможно, что класс содержит распределения произвольно большой энтропии (например, класс всех непрерывных распределений на R со средним 0, но произвольным стандартным отклонением), или что энтропии ограничены сверху, но нет распределения, которое достигает максимальной энтропии. Также возможно, что ожидаемая величина ограничения для класса C заставить распределение вероятностей равна нулю в некоторых подмножеств S. В этом случае наша теорема не применяется, но можно обойти эту проблему, сокращая набор S.

Примеры

Каждое распределение вероятностей является тривиальным распределением вероятностей максимальной энтропии при условии, что это распределение имеет собственную энтропию. Чтобы увидеть это, перепишите плотность как и сравните с выражением теоремы выше. Выбрав измеримую функцию и п ( Икс ) знак равно exp ( пер п ( Икс ) ) {\ Displaystyle р (х) = \ ехр {(\ пер {р (х)})}} пер п ( Икс ) ж ( Икс ) {\ Displaystyle \ пер {п (х)} \ rightarrow f (х)}

exp ( ж ( Икс ) ) ж ( Икс ) d Икс знак равно - ЧАС {\ Displaystyle \ int \ ехр {(е (х))} е (х) dx = -H}

быть константой, является максимальным распределением вероятности энтропии при ограничении п ( Икс ) {\ displaystyle p (x)}

п ( Икс ) ж ( Икс ) d Икс знак равно - ЧАС {\ Displaystyle \ int p (x) f (x) dx = -H}.

Нетривиальными примерами являются распределения, на которые накладываются несколько ограничений, отличных от назначения энтропии. Их часто можно найти, начав с одной и той же процедуры и обнаружив, что их можно разделить на части. пер п ( Икс ) ж ( Икс ) {\ Displaystyle \ пер {п (х)} \ rightarrow f (х)} ж ( Икс ) {\ displaystyle f (x)}

Таблица примеров распределения максимальной энтропии приведена в работах Лисмана (1972) и Парк и Бера (2009).

Равномерные и кусочно-однородные распределения

Равномерное распределение на отрезке [, Ь ] является максимальное распределение энтропии среди всех непрерывных распределений, которые поддерживаются в интервале [, Ь ], и, следовательно, плотность вероятности равна 0 вне интервала. Эта однородная плотность может быть связана с принципом безразличия Лапласа, который иногда называют принципом недостаточной причины. В более общем смысле, если нам дано подразделение a = a 0 lt; a 1 lt;... lt; a k = b интервала [ a, b ] и вероятности p 1,..., p k, которые в сумме дают единицу, то можно рассмотреть класс всех непрерывных распределений таких, что

Pr ( а j - 1 Икс lt; а j ) знак равно п j  для  j знак равно 1 , , k {\ displaystyle \ operatorname {Pr} (a_ {j-1} \ leq X lt;a_ {j}) = p_ {j} \ quad {\ t_dv {for}} j = 1, \ ldots, k}

Плотность распределения максимальной энтропии для этого класса постоянна на каждом из интервалов [ a j -1, a j). Равномерное распределение на конечном множестве { x 1,..., x n } (которое присваивает вероятность 1 / n каждому из этих значений) является максимальным распределением энтропии среди всех дискретных распределений, поддерживаемых на этом множестве.

Положительное и указанное среднее: экспоненциальное распределение

Экспоненциальное распределение, при котором функция плотности

п ( Икс | λ ) знак равно { λ е - λ Икс Икс 0 , 0 Икс lt; 0 , {\ displaystyle p (x | \ lambda) = {\ begin {cases} \ lambda e ^ {- \ lambda x} amp; x \ geq 0, \\ 0 amp; x lt;0, \ end {cases}}}

является максимальным распределением энтропии среди всех непрерывных распределений, поддерживаемых в [0, ∞), которые имеют заданное среднее значение 1 / λ.

Заданная дисперсия: нормальное распределение

Нормальное распределение N (μ, σ 2), для которых функция плотности

п ( Икс | μ , σ ) знак равно 1 σ 2 π е - ( Икс - μ ) 2 2 σ 2 , {\ displaystyle p (x | \ mu, \ sigma) = {\ frac {1} {\ sigma {\ sqrt {2 \ pi}}}} e ^ {- {\ frac {(x- \ mu) ^ { 2}} {2 \ sigma ^ {2}}}},}

имеет максимальную энтропию среди всех вещественнозначных распределений с носителем на (−∞, ∞) с заданной дисперсией σ 2 (конкретный момент ). Следовательно, предположение о нормальности налагает минимальные априорные структурные ограничения после этого момента. (См. Вывод в статье о дифференциальной энтропии. )

В случае распределений, поддерживаемых на [0, ∞), максимальное распределение энтропии зависит от соотношений между первым и вторым моментами. В определенных случаях это может быть экспоненциальное распределение, может быть другое распределение или может быть неопределимым.

Дискретные распределения с заданным средним значением

Среди всех дискретных распределений, поддерживаемых на множестве { x 1,..., x n } с заданным средним μ, максимальное распределение энтропии имеет следующую форму:

Pr ( Икс знак равно Икс k ) знак равно C р Икс k  для  k знак равно 1 , , п {\ displaystyle \ operatorname {Pr} (X = x_ {k}) = Cr ^ {x_ {k}} \ quad {\ t_dv {for}} k = 1, \ ldots, n}

где положительные константы C и r могут быть определены с помощью требований, согласно которым сумма всех вероятностей должна быть равна 1, а ожидаемое значение должно быть μ.

Например, если большое число N кости брошены, и вы сказали, что сумма всех показанных чисел S. Основываясь только на этой информации, какое будет разумное предположение для количества игральных костей, показывающих 1, 2,..., 6? Это является примером ситуации, рассмотренной выше, с { х 1,..., х 6 } = {1,..., 6}, и μ = S / N.

Наконец, среди всех дискретных распределений, поддерживаемых бесконечным множеством со средним значением μ, максимальное распределение энтропии имеет форму: { Икс 1 , Икс 2 , . . . } {\ Displaystyle \ {х_ {1}, х_ {2},... \}}

Pr ( Икс знак равно Икс k ) знак равно C р Икс k  для  k знак равно 1 , 2 , , {\ displaystyle \ operatorname {Pr} (X = x_ {k}) = Cr ^ {x_ {k}} \ quad {\ t_dv {for}} k = 1,2, \ ldots,}

где снова константы C и r были определены из требований, что сумма всех вероятностей должна быть 1, а ожидаемое значение должно быть μ. Например, в случае, когда x k = k, это дает

C знак равно 1 μ - 1 , р знак равно μ - 1 μ , {\ displaystyle C = {\ frac {1} {\ mu -1}}, \ quad \ quad r = {\ frac {\ mu -1} {\ mu}},}

такое, что соответствующее максимальное распределение энтропии является геометрическим распределением.

Круговые случайные величины

Для непрерывной случайной величины, распределенной вокруг единичного круга, распределение фон Мизеса максимизирует энтропию, когда указаны действительная и мнимая части первого кругового момента или, что то же самое, заданы круговое среднее и круговая дисперсия. θ я {\ displaystyle \ theta _ {я}}

Если заданы среднее значение и дисперсия углов по модулю, обернутое нормальное распределение максимизирует энтропию. θ я {\ displaystyle \ theta _ {я}} 2 π {\ displaystyle 2 \ pi}

Максимизатор для указанного среднего, дисперсии и перекоса

Существует верхняя граница энтропии непрерывных случайных величин с заданными средним значением, дисперсией и перекосом. Однако не существует распределения, которое достигает этой верхней границы, потому что оно неограничено, за исключением случаев (см. Cover amp; Thomas (2006: глава 12)). р {\ Displaystyle \ mathbb {R}} п ( Икс ) знак равно c exp ( λ 1 Икс + λ 2 Икс 2 + λ 3 Икс 3 ) {\ Displaystyle п (х) = с \ ехр {(\ лямбда _ {1} х + \ лямбда _ {2} х ^ {2} + \ лямбда _ {3} х ^ {3})}} λ 3 знак равно 0 {\ displaystyle \ lambda _ {3} = 0}

Однако максимальная энтропия ε- достижима: энтропия распределения может быть сколь угодно близкой к верхней границе. Начните с нормального распределения указанного среднего и дисперсии. Чтобы ввести положительный перекос, немного сместите нормальное распределение вверх со значением, на много σ большим, чем среднее значение. На асимметрию, пропорциональную третьему моменту, повлияет больше, чем на моменты более низкого порядка.

Максимизатор для указанной меры риска среднего и отклонения

Каждое распределение с логарифмически вогнутой плотностью максимальное распределение энтропии с указанным средним ц и отклонение риска меры D.

В частности, максимальное распределение энтропии с указанным средним значением и отклонением составляет: E ( Икс ) знак равно μ {\ Displaystyle Е (х) = \ му} D ( Икс ) знак равно d {\ Displaystyle D (х) = d}

  • Нормальное распределение, если это стандартное отклонение ; N ( м , d 2 ) {\ Displaystyle N (м, d ^ {2})} D ( Икс ) знак равно E [ ( Икс - μ ) 2 ] {\ displaystyle D (x) = {\ sqrt {E [(x- \ mu) ^ {2}]}}}
  • Распределение Лапласа, если - среднее абсолютное отклонение ; D ( Икс ) знак равно E ( | Икс - μ | ) {\ Displaystyle D (х) = Е (| х- \ му |)}
  • Распределение с плотностью вида, если является стандартной нижней полу-отклонение, где и а, б, в константы. ж ( Икс ) знак равно c exp ( а Икс + б [ Икс - μ ] - 2 ) {\ Displaystyle е (х) = с \ ехр (ах + Ь {[х- \ му] _ {-}} ^ {2})} D ( Икс ) знак равно E [ ( Икс - μ ) - 2 ] {\ displaystyle D (x) = {\ sqrt {E [{(x- \ mu) _ {-}} ^ {2}]}}} [ Икс ] - знак равно Максимум { 0 , - Икс } {\ Displaystyle [х] _ {-}: = \ макс \ {0, -x \}}

Другие примеры

В таблице ниже каждое перечисленное распределение максимизирует энтропию для определенного набора функциональных ограничений, перечисленных в третьем столбце, и ограничения, в соответствии с которым x должен быть включен в поддержку плотности вероятности, которая указана в четвертом столбце. Перечисленные несколько примеров (Бернулли, геометрический, экспоненциальный, Лаплас, Парето) тривиально верны, потому что связанные с ними ограничения эквивалентны назначению их энтропии. Они все равно включены, потому что их ограничение связано с общей или легко измеряемой величиной. Для справки: - это гамма-функция, - это дигамма-функция, - это бета-функция, а γ E - постоянная Эйлера-Маскерони. Γ ( Икс ) знак равно 0 е - т т Икс - 1 d т {\ displaystyle \ Gamma (x) = \ int _ {0} ^ {\ infty} e ^ {- t} t ^ {x-1} dt} ψ ( Икс ) знак равно d d Икс пер Γ ( Икс ) знак равно Γ ( Икс ) Γ ( Икс ) {\ Displaystyle \ psi (x) = {\ frac {d} {dx}} \ ln \ Gamma (x) = {\ frac {\ Gamma '(x)} {\ Gamma (x)}}} B ( п , q ) знак равно Γ ( п ) Γ ( q ) Γ ( п + q ) {\ Displaystyle В (p, q) = {\ гидроразрыва {\ Gamma (p) \ Gamma (q)} {\ Gamma (p + q)}}}

Таблица вероятностных распределений и соответствующих ограничений максимальной энтропии
Название дистрибутива Плотность вероятности / функция массы Ограничение максимальной энтропии Служба поддержки
Равномерное (дискретное) ж ( k ) знак равно 1 б - а + 1 {\ displaystyle f (k) = {\ frac {1} {b-a + 1}}} Никто { а , а + 1 , . . . , б - 1 , б } {\ Displaystyle \ {а, а + 1,..., б-1, б \} \,}
Равномерное (непрерывное) ж ( Икс ) знак равно 1 б - а {\ displaystyle f (x) = {\ frac {1} {ba}}} Никто [ а , б ] {\ Displaystyle [а, Ь] \,}
Бернулли ж ( k ) знак равно п k ( 1 - п ) 1 - k {\ Displaystyle е (к) = п ^ {к} (1-р) ^ {1-к}} E ( k ) знак равно п {\ Displaystyle \ OperatorName {E} (к) = р \,} { 0 , 1 } {\ Displaystyle \ {0,1 \} \,}
Геометрический ж ( k ) знак равно ( 1 - п ) k - 1 п {\ Displaystyle е (к) = (1-р) ^ {к-1} \, р} E ( k ) знак равно 1 п {\ displaystyle \ operatorname {E} (k) = {\ frac {1} {p}} \,} N { 0 } знак равно { 1 , 2 , 3 , . . . } {\ Displaystyle \ mathbb {N} \ setminus \ left \ {0 \ right \} = \ {1,2,3,... \}}
Экспоненциальный ж ( Икс ) знак равно λ exp ( - λ Икс ) {\ Displaystyle е (х) = \ лямбда \ ехр \ влево (- \ лямбда х \ вправо)} E ( Икс ) знак равно 1 λ {\ displaystyle \ operatorname {E} (x) = {\ frac {1} {\ lambda}} \,} [ 0 , ) {\ Displaystyle [0, \ infty) \,}
Лаплас ж ( Икс ) знак равно 1 2 б exp ( - | Икс - μ | б ) {\ displaystyle f (x) = {\ frac {1} {2b}} \ exp \ left (- {\ frac {| x- \ mu |} {b}} \ right)} E ( | Икс - μ | ) знак равно б {\ Displaystyle \ OperatorName {E} (| x- \ mu |) = b \,} ( - , ) {\ Displaystyle (- \ infty, \ infty) \,}
Асимметричный лаплас ж ( Икс ) знак равно λ е - ( Икс - м ) λ s κ s κ + 1 / κ ( s знак равно sgn ( Икс - м ) ) {\ displaystyle f (x) = {\ frac {\ lambda \, e ^ {- (xm) \ lambda s \ kappa ^ {s}}} {\ kappa + 1 / \ kappa}} \, (s \! = \! \ OperatorName {sgn} (x \! - \! m))} E ( ( Икс - м ) s κ s ) знак равно 1 / λ {\ displaystyle \ operatorname {E} ((xm) s \ kappa ^ {s}) = 1 / \ lambda \,} ( - , ) {\ Displaystyle (- \ infty, \ infty) \,}
Парето ж ( Икс ) знак равно α Икс м α Икс α + 1 {\ Displaystyle е (х) = {\ гидроразрыва {\ альфа х_ {м} ^ {\ альфа}} {х ^ {\ альфа +1}}}} E ( пер ( Икс ) ) знак равно 1 α + пер ( Икс м ) {\ displaystyle \ operatorname {E} (\ ln (x)) = {\ frac {1} {\ alpha}} + \ ln (x_ {m}) \,} [ Икс м , ) {\ Displaystyle [х_ {м}, \ infty) \,}
Нормальный ж ( Икс ) знак равно 1 2 π σ 2 exp ( - ( Икс - μ ) 2 2 σ 2 ) {\ displaystyle f (x) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} \ exp \ left (- {\ frac {(x- \ mu) ^ {2} } {2 \ sigma ^ {2}}} \ right)} E ( Икс ) знак равно μ , E ( ( Икс - μ ) 2 ) знак равно σ 2 {\ displaystyle \ operatorname {E} (x) = \ mu, \, \ operatorname {E} ((x- \ mu) ^ {2}) = \ sigma ^ {2}} ( - , ) {\ Displaystyle (- \ infty, \ infty) \,}
Усеченный нормальный (см. статью) E ( Икс ) знак равно μ Т , E ( ( Икс - μ Т ) 2 ) знак равно σ Т 2 {\ displaystyle \ operatorname {E} (x) = \ mu _ {T}, \, \ operatorname {E} ((x- \ mu _ {T}) ^ {2}) = \ sigma _ {T} ^ {2}} [ а , б ] {\ Displaystyle [а, б]}
фон Мизес ж ( θ ) знак равно 1 2 π я 0 ( κ ) exp ( κ потому что ( θ - μ ) ) {\ Displaystyle е (\ тета) = {\ гидроразрыва {1} {2 \ пи I_ {0} (\ каппа)}} \ ехр {(\ каппа \ соз {(\ тета - \ му)})}} E ( потому что θ ) знак равно я 1 ( κ ) я 0 ( κ ) потому что μ , E ( грех θ ) знак равно я 1 ( κ ) я 0 ( κ ) грех μ {\ displaystyle \ operatorname {E} (\ cos \ theta) = {\ frac {I_ {1} (\ kappa)} {I_ {0} (\ kappa)}} \ cos \ mu, \, \ operatorname {E } (\ sin \ theta) = {\ frac {I_ {1} (\ kappa)} {I_ {0} (\ kappa)}} \ sin \ mu} [ 0 , 2 π ) {\ Displaystyle [0,2 \ pi) \,}
Рэлей ж ( Икс ) знак равно Икс σ 2 exp ( - Икс 2 2 σ 2 ) {\ displaystyle f (x) = {\ frac {x} {\ sigma ^ {2}}} \ exp \ left (- {\ frac {x ^ {2}} {2 \ sigma ^ {2}}} \ верно)} E ( Икс 2 ) знак равно 2 σ 2 , E ( пер ( Икс ) ) знак равно пер ( 2 σ 2 ) - γ E 2 {\ displaystyle \ operatorname {E} (x ^ {2}) = 2 \ sigma ^ {2}, \ operatorname {E} (\ ln (x)) = {\ frac {\ ln (2 \ sigma ^ {2 }) - \ gamma _ {\ mathrm {E}}} {2}} \,} [ 0 , ) {\ Displaystyle [0, \ infty) \,}
Бета ж ( Икс ) знак равно Икс α - 1 ( 1 - Икс ) β - 1 B ( α , β ) {\ Displaystyle е (х) = {\ гидроразрыва {х ^ {\ альфа -1} (1-х) ^ {\ бета -1}} {В (\ альфа, \ бета)}}} для 0 Икс 1 {\ Displaystyle 0 \ Leq х \ Leq 1} E ( пер ( Икс ) ) знак равно ψ ( α ) - ψ ( α + β ) {\ displaystyle \ operatorname {E} (\ ln (x)) = \ psi (\ alpha) - \ psi (\ alpha + \ beta) \,} E ( пер ( 1 - Икс ) ) знак равно ψ ( β ) - ψ ( α + β ) {\ Displaystyle \ OperatorName {E} (\ пер (1-х)) = \ psi (\ бета) - \ psi (\ альфа + \ бета) \,} [ 0 , 1 ] {\ Displaystyle [0,1] \,}
Коши ж ( Икс ) знак равно 1 π ( 1 + Икс 2 ) {\ Displaystyle е (х) = {\ гидроразрыва {1} {\ пи (1 + х ^ {2})}}} E ( пер ( 1 + Икс 2 ) ) знак равно 2 пер 2 {\ Displaystyle \ OperatorName {E} (\ ln (1 + x ^ {2})) = 2 \ ln 2} ( - , ) {\ Displaystyle (- \ infty, \ infty) \,}
Чи ж ( Икс ) знак равно 2 2 k / 2 Γ ( k / 2 ) Икс k - 1 exp ( - Икс 2 2 ) {\ Displaystyle f (x) = {\ frac {2} {2 ^ {k / 2} \ Gamma (k / 2)}} x ^ {k-1} \ exp \ left (- {\ frac {x ^ {2}} {2}} \ right)} E ( Икс 2 ) знак равно k , E ( пер ( Икс ) ) знак равно 1 2 [ ψ ( k 2 ) + пер ( 2 ) ] {\ displaystyle \ operatorname {E} (x ^ {2}) = k, \, \ operatorname {E} (\ ln (x)) = {\ frac {1} {2}} \ left [\ psi \ left ({\ frac {k} {2}} \ right) \! + \! \ ln (2) \ right]} [ 0 , ) {\ Displaystyle [0, \ infty) \,}
Хи-квадрат ж ( Икс ) знак равно 1 2 k / 2 Γ ( k / 2 ) Икс k 2 - 1 exp ( - Икс 2 ) {\ displaystyle f (x) = {\ frac {1} {2 ^ {k / 2} \ Gamma (k / 2)}} x ^ {{\ frac {k} {2}} \! - \! 1 } \ exp \ left (- {\ frac {x} {2}} \ right)} E ( Икс ) знак равно k , E ( пер ( Икс ) ) знак равно ψ ( k 2 ) + пер ( 2 ) {\ displaystyle \ operatorname {E} (x) = k, \, \ operatorname {E} (\ ln (x)) = \ psi \ left ({\ frac {k} {2}} \ right) + \ ln (2)} [ 0 , ) {\ Displaystyle [0, \ infty) \,}
Erlang ж ( Икс ) знак равно λ k ( k - 1 ) ! Икс k - 1 exp ( - λ Икс ) {\ displaystyle f (x) = {\ frac {\ lambda ^ {k}} {(k-1)!}} x ^ {k-1} \ exp (- \ lambda x)} E ( Икс ) знак равно k / λ , E ( пер ( Икс ) ) знак равно ψ ( k ) - пер ( λ ) {\ Displaystyle \ OperatorName {E} (x) = k / \ lambda, \, \ Operatorname {E} (\ ln (x)) = \ psi (k) - \ ln (\ lambda)} [ 0 , ) {\ Displaystyle [0, \ infty) \,}
Гамма ж ( Икс ) знак равно Икс k - 1 exp ( - Икс θ ) θ k Γ ( k ) {\ displaystyle f (x) = {\ frac {x ^ {k-1} \ exp (- {\ frac {x} {\ theta}})} {\ theta ^ {k} \ Gamma (k)}} } E ( Икс ) знак равно k θ , E ( пер ( Икс ) ) знак равно ψ ( k ) + пер ( θ ) {\ Displaystyle \ OperatorName {E} (х) = к \ тета, \, \ OperatorName {E} (\ ln (x)) = \ psi (k) + \ ln (\ theta)} [ 0 , ) {\ Displaystyle [0, \ infty) \,}
Логнормальный ж ( Икс ) знак равно 1 σ Икс 2 π exp ( - ( пер Икс - μ ) 2 2 σ 2 ) {\ displaystyle f (x) = {\ frac {1} {\ sigma x {\ sqrt {2 \ pi}}}} \ exp \ left (- {\ frac {(\ ln x- \ mu) ^ {2 }} {2 \ sigma ^ {2}}} \ right)} E ( пер ( Икс ) ) знак равно μ , E ( ( пер ( Икс ) - μ ) 2 ) знак равно σ 2 {\ Displaystyle \ OperatorName {E} (\ ln (x)) = \ mu, \ operatorname {E} ((\ ln (x) - \ mu) ^ {2}) = \ sigma ^ {2} \,} ( 0 , ) {\ Displaystyle (0, \ infty) \,}
Максвелл – Больцманн ж ( Икс ) знак равно 1 а 3 2 π Икс 2 exp ( - Икс 2 2 а 2 ) {\ displaystyle f (x) = {\ frac {1} {a ^ {3}}} {\ sqrt {\ frac {2} {\ pi}}} \, x ^ {2} \ exp \ left (- {\ frac {x ^ {2}} {2a ^ {2}}} \ right)} E ( Икс 2 ) знак равно 3 а 2 , E ( пер ( Икс ) ) знак равно 1 + пер ( а 2 ) - γ E 2 {\ displaystyle \ operatorname {E} (x ^ {2}) = 3a ^ {2}, \, \ operatorname {E} (\ ln (x)) \! = \! 1 \! + \! \ ln \ left ({\ frac {a} {\ sqrt {2}}} \ right) \! - \! {\ frac {\ gamma _ {\ mathrm {E}}} {2}}} [ 0 , ) {\ Displaystyle [0, \ infty) \,}
Weibull ж ( Икс ) знак равно k λ k Икс k - 1 exp ( - Икс k λ k ) {\ displaystyle f (x) = {\ frac {k} {\ lambda ^ {k}}} x ^ {k-1} \ exp \ left (- {\ frac {x ^ {k}} {\ lambda ^ {k}}} \ right)} E ( Икс k ) знак равно λ k , E ( пер ( Икс ) ) знак равно пер ( λ ) - γ E k {\ displaystyle \ operatorname {E} (x ^ {k}) = \ lambda ^ {k}, \ operatorname {E} (\ ln (x)) = \ ln (\ lambda) - {\ frac {\ gamma _ {\ mathrm {E}}} {k}} \,} [ 0 , ) {\ Displaystyle [0, \ infty) \,}
Многомерный нормальный ж Икс ( Икс ) знак равно {\ displaystyle f_ {X} ({\ vec {x}}) =} exp ( - 1 2 ( Икс - μ ) Σ - 1 ( Икс - μ ) ) ( 2 π ) N / 2 | Σ | 1 / 2 {\ displaystyle {\ frac {\ exp \ left (- {\ frac {1} {2}} ({\ vec {x}} - {\ vec {\ mu}}) ^ {\ top} \ Sigma ^ { -1} \ cdot ({\ vec {x}} - {\ vec {\ mu}}) \ right)} {(2 \ pi) ^ {N / 2} \ left | \ Sigma \ right | ^ {1 / 2}}}} E ( Икс ) знак равно μ , E ( ( Икс - μ ) ( Икс - μ ) Т ) знак равно Σ {\ displaystyle \ operatorname {E} ({\ vec {x}}) = {\ vec {\ mu}}, \, \ operatorname {E} (({\ vec {x}} - {\ vec {\ mu }}) ({\ vec {x}} - {\ vec {\ mu}}) ^ {T}) = \ Sigma \,} р п {\ Displaystyle \ mathbb {R} ^ {п}}
Биномиальный ж ( k ) знак равно ( п k ) п k ( 1 - п ) п - k {\ displaystyle f (k) = {n \ choose k} p ^ {k} (1-p) ^ {nk}} E ( Икс ) знак равно μ , ж n-обобщенное биномиальное распределение {\ displaystyle \ operatorname {E} (x) = \ mu, f \ in {\ text {n-обобщенное биномиальное распределение}}} { 0 , , п } {\ Displaystyle \ влево \ {0, {\ ldots}, п \ вправо \}}
Пуассон ж ( k ) знак равно λ k exp ( - λ ) k ! {\ Displaystyle е (к) = {\ гидроразрыва {\ лямбда ^ {к} \ ехр (- \ лямбда)} {к!}}} E ( Икс ) знак равно λ , ж -обобщенное биномиальное распределение {\ displaystyle \ operatorname {E} (x) = \ lambda, f \ in {\ infty} {\ text {-обобщенное биномиальное распределение}}} N { 0 } {\ Displaystyle \ mathbb {N} \ чашка \ left \ {0 \ right \}}
Смотрите также
Примечания
Цитаты
использованная литература
Последняя правка сделана 2024-01-02 02:52:16
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте