Принцип максимальной энтропии

редактировать
Принцип байесовской статистики

Принцип максимальной энтропии утверждает, что распределение вероятностей, которое наилучшим образом представляет текущее состояние знаний, является распределением с наибольшей энтропией в контексте точно указанных предшествующих данных (например, утверждение, которое выражает проверяемая информация).

Другой способ сформулировать это: взять точно установленные априорные данные или проверяемую информацию о функции распределения вероятностей. Рассмотрим набор всех распределений вероятностей испытаний, которые будут кодировать предыдущие данные. Согласно этому принципу, наилучшим выбором является распределение с максимальной информационной энтропией.

Поскольку распределение с максимальной энтропией - это такое распределение, которое делает наименьшее количество предположений об истинном распределении данных, принцип максимальной энтропии можно рассматривать как применение бритвы Оккама.

Содержание
  • 1 История
  • 2 Обзор
  • 3 Проверяемая информация
  • 4 Приложения
    • 4.1 Априорные вероятности
    • 4.2 Апостериорные вероятности
    • 4.3 Модели максимальной энтропии
    • 4.4 Оценка плотности вероятности
  • 5 Общее решение для максимального распределения энтропии с линейными ограничениями
    • 5.1 Дискретный случай
    • 5.2 Непрерывный случай
    • 5.3 Примеры
  • 6 Обоснование принципа максимальной энтропии
    • 6.1 Информационная энтропия как мера «неинформативности» '
    • 6.2 Вывод Уоллиса
    • 6.3 Совместимость с теоремой Байеса
  • 7 Соответствие физике
  • 8 См. Также
  • 9 Примечания
  • 10 Ссылки
  • 11 Дополнительная литература
История

Принцип был впервые изложен Э. Т. Джейнс в двух статьях 1957 года, в которых он подчеркивал естественное соответствие между статистической механикой и теорией информации. В частности, Джейнс предложил новое и очень общее объяснение того, почему гиббсовский метод статистической механики работает. Он утверждал, что энтропия статистической механики и информационная энтропия теории информации - это в основном одно и то же. Следовательно, статистическую механику следует рассматривать просто как частное приложение общего инструмента логического вывода и теории информации.

Обзор

В большинстве практических случаев указанные априорные данные или проверяемая информация задаются набором сохраняемых величин (средние значения некоторых функций момента), связанных с рассматриваемое распределение вероятностей. Именно так принцип максимальной энтропии чаще всего используется в статистической термодинамике. Другая возможность - задать некоторые симметрии распределения вероятностей. Эквивалентность между сохраняющимися величинами и соответствующими группами симметрии подразумевает аналогичную эквивалентность для этих двух способов задания проверяемой информации в методе максимальной энтропии.

Принцип максимальной энтропии также необходим для гарантии уникальности и согласованности вероятностных присвоений, полученных различными методами, в частности статистической механикой и логическим выводом.

Принцип максимальной энтропии явно выражает нашу свободу в использовании различных форм предшествующих данных. В качестве особого случая может быть принята равномерная априорная вероятность плотность (принцип безразличия Лапласа, иногда называемый принципом недостаточной причины). Таким образом, принцип максимальной энтропии - это не просто альтернативный способ рассмотрения обычных методов вывода классической статистики, но представляет собой значительное концептуальное обобщение этих методов.

Однако эти утверждения не подразумевают, что термодинамические системы не должны быть показаны как эргодические, чтобы оправдать их рассмотрение как статистический ансамбль.

На обычном языке принцип максимальной энтропии можно сказать, что оно выражает претензию на эпистемическую скромность или максимальное невежество. Выбранное распределение - это такое распределение, которое в наименьшей степени претендует на информированность помимо заявленных предшествующих данных, то есть допускает наибольшее невежество, помимо указанных ранее данных.

Проверяемая информация

Принцип максимальной энтропии явно полезен только при применении к проверяемой информации. Проверяемая информация - это утверждение о распределении вероятностей, истинность или ложность которого четко определена. Например, в операторах

ожидание переменной x {\ displaystyle x}x равно 2,87

и

p 2 + p 3>0,6. {\ displaystyle p_ {2} + p_ {3}>0.6}{\displaystyle p_{2}+p_{3}>0.6}

(где p 2 {\ displaystyle p_ {2}}p_ {2} и p 3 {\ displaystyle p_ {3 }}p_ {3} - вероятности событий) - утверждения проверяемой информации.

При наличии проверяемой информации процедура максимальной энтропии состоит из поиска распределения вероятностей, которое максимизирует информационная энтропия с учетом ограничений информации. Эта задача оптимизации с ограничениями обычно решается с использованием метода множителей Лагранжа.

Максимизация энтропии без проверяемой информации соблюдает универсальное "ограничение", заключающееся в том, что сумма вероятность равна 1. При этом ограничении диск максимальной энтропии Повторное распределение вероятностей - это равномерное распределение,

p i = 1 n f o r a l l i ∈ {1,…, n}. {\ displaystyle p_ {i} = {\ frac {1} {n}} \ {\ rm {for \ all}} \ i \ in \ {\, 1, \ dots, n \, \}.}p_ {i} = {\ frac {1} { n}} \ {\ rm {для \ all}} \ i \ in \ {\, 1, \ dots, n \, \}.
Приложения

Принцип максимальной энтропии обычно применяется двумя способами к задачам вывода:

Априорные вероятности

Принцип максимальной энтропии часто используется для получения априорные распределения вероятностей для байесовского вывода. Джейнс был ярым сторонником этого подхода, утверждая, что максимальное распределение энтропии представляет собой наименее информативное распределение. В настоящее время большое количество литературы посвящено выявлению априорных значений максимальной энтропии и связей с канальным кодированием.

Апостериорными вероятностями

Максимальная энтропия является достаточным обновляющим правилом для радикальной вероятности. Ричард Джеффри кинематика вероятности является частным случаем вывода максимальной энтропии. Однако максимальная энтропия не является обобщением всех таких достаточных правил обновления.

Модели максимальной энтропии

В качестве альтернативы этот принцип часто используется для спецификации модели: в этом случае предполагаются сами наблюдаемые данные быть проверяемой информацией. Такие модели широко используются в обработке естественного языка. Примером такой модели является логистическая регрессия, что соответствует классификатору максимальной энтропии для независимых наблюдений.

Оценка плотности вероятности

Одно из основных применений принципа максимальной энтропии - это дискретная и непрерывная оценка плотности. Аналогично опорных векторов оценщики, принцип максимума энтропии может потребовать от раствора до квадратичного программирования и таким образом обеспечивают разреженную модель смеси в качестве оценки плотности оптимальной. Одним из важных преимуществ метода является возможность включения априорной информации в оценку плотности.

Общее решение для максимального распределения энтропии с линейными ограничениями

Дискретный случай

У нас есть некоторые проверяемая информация I о величине x, принимающей значения в {x 1, x 2,..., x n }. Мы предполагаем, что эта информация имеет форму m ограничений на ожидания функций f k ; то есть, мы требуем, чтобы наше распределение вероятностей удовлетворяло условиям неравенства / равенства моментов:

∑ i = 1 n Pr (x i) f k (x i) ≥ F k k = 1,…, m. {\ displaystyle \ sum _ {я = 1} ^ {n} \ Pr (x_ {i}) f_ {k} (x_ {i}) \ geq F_ {k} \ qquad k = 1, \ ldots, m. }{\ displaystyle \ sum _ {i = 1} ^ {n} \ Pr (x_ {i}) f_ {k} (x_ {i}) \ geq F_ {k} \ qquad k = 1, \ ldots, m.}

где F k {\ displaystyle F_ {k}}{\ displaystyle F_ { k}} - наблюдаемые. Мы также требуем, чтобы плотность вероятности была суммирована до единицы, что можно рассматривать как примитивное ограничение для функции идентичности и как наблюдаемую, равную 1, дающую ограничение

∑ i = 1 n Pr (xi) = 1. {\ displaystyle \ sum _ {i = 1} ^ {n} \ Pr (x_ {i}) = 1.}\ sum _ {i = 1} ^ {n} \ Pr (x_ {i}) = 1.

Распределение вероятностей с максимальной информационной энтропией с учетом этих ограничений неравенства / равенства имеет вид:

Pr (xi) знак равно 1 Z (λ 1,…, λ m) ехр ⁡ [λ 1 е 1 (xi) + ⋯ + λ mfm (xi)], {\ displaystyle \ Pr (x_ {i}) = {\ frac {1} {Z (\ lambda _ {1}, \ ldots, \ lambda _ {m})}} \ exp \ left [\ lambda _ {1} f_ {1} (x_ {i}) + \ cdots + \ lambda _ {m} f_ {m} (x_ {i}) \ right],}{\ displaystyle \ Pr (x_ {i}) = {\ frac {1} {Z (\ lambda _ {1}, \ ldots, \ lambda _ {m})}} \ exp \ left [\ lambda _ {1} f_ {1} (x_ {i}) + \ cdots + \ lambda _ {m} f_ {m} (x_ {i}) \ right],}

для некоторого λ 1,…, λ m {\ displaystyle \ lambda _ {1}, \ ldots, \ лямбда _ {m}}{\ displaystyle \ lambda _ {1}, \ ldots, \ lambda _ {m}} . Иногда его называют распределением Гиббса. Константа нормализации определяется следующим образом:

Z (λ 1,…, λ m) = ∑ i = 1 n exp ⁡ [λ 1 f 1 (xi) + ⋯ + λ mfm (xi)], {\ displaystyle Z (\ lambda _ {1}, \ ldots, \ lambda _ {m}) = \ sum _ {i = 1} ^ {n} \ exp \ left [\ lambda _ {1} f_ {1} (x_ {i }) + \ cdots + \ lambda _ {m} f_ {m} (x_ {i}) \ right],}Z (\ lambda _ {1}, \ ldots, \ lambda _ { m}) = \ sum _ {i = 1} ^ {n} \ exp \ left [\ lambda _ {1} f_ {1} (x_ {i}) + \ cdots + \ lambda _ {m} f_ {m } (x_ {i}) \ right],

и обычно называется функцией разделения . (Теорема Питмана – Купмана утверждает, что необходимое и достаточное условие для выборочного распределения, допускающего достаточную статистику ограниченной размерности, состоит в том, что оно имеет общую форму максимального распределения энтропии.)

Параметры λ k являются множителями Лагранжа. В случае ограничений-равенств их значения определяются из решения нелинейных уравнений

F k = ∂ ∂ λ k log ⁡ Z (λ 1,…, λ m). {\ displaystyle F_ {k} = {\ frac {\ partial} {\ partial \ lambda _ {k}}} \ log Z (\ lambda _ {1}, \ ldots, \ lambda _ {m}).}F_ {k} = {\ frac {\ partial} {\ partial \ lambda _ {k}}} \ log Z (\ лямбда _ {1}, \ ldots, \ lambda _ {m}).

В случае ограничений неравенства множители Лагранжа определяются из решения программы выпуклой оптимизации с линейными ограничениями. В обоих случаях не существует решения в закрытой форме, и для вычисления множителей Лагранжа обычно требуются численные методы.

Непрерывный случай

Для непрерывных распределений, энтропия Шеннона не может использоваться, поскольку она определена только для дискретных вероятностных пространств. Вместо этого Эдвин Джейнс (1963, 1968, 2003) дал следующую формулу, которая тесно связана с относительной энтропией (см. Также дифференциальная энтропия ).

ЧАС с знак равно - ∫ п (Икс) журнал ⁡ п (Икс) q (Икс) dx {\ Displaystyle H_ {c} = - \ int p (x) \ log {\ frac {p (x)} { q (x)}} \, dx}{\ displaystyle H_ {c} = - \ int p (x) \ log {\ frac {p (x)} {q (x)}} \, dx}

где q (x), которую Джейнс назвал «инвариантной мерой», пропорционален предельной плотности дискретных точек. Пока предположим, что q известно; мы обсудим это позже после того, как будут приведены решения уравнений.

Тесно связанная величина, относительная энтропия, обычно определяется как дивергенция Кульбака – Лейблера p от q (хотя иногда она определяется как отрицательная величина). Принцип логического вывода минимизации этого, благодаря Кульбаку, известен как Принцип минимальной информации о различении.

. У нас есть некоторая проверяемая информация I о величине x, которая принимает значения в некотором интервале вещественные числа (все интегралы ниже лежат в этом интервале). Мы предполагаем, что эта информация имеет форму m ограничений на ожидания функций f k, то есть мы требуем, чтобы наша функция плотности вероятности удовлетворяла ограничениям момента в виде неравенства (или просто равенства):

∫ p ( x) fk (x) dx ≥ F kk = 1,…, m. {\ displaystyle \ int p (x) f_ {k} (x) \, dx \ geq F_ {k} \ qquad k = 1, \ dotsc, m.}{\ displa ystyle \ int p (x) f_ {k} (x) \, dx \ geq F_ {k} \ qquad k = 1, \ dotsc, m.}

где F k {\ displaystyle F_ {k}}{\ displaystyle F_ { k}} наблюдаемые. Мы также требуем, чтобы плотность вероятности интегрировалась в единицу, что можно рассматривать как примитивное ограничение на функцию идентичности и как наблюдаемую, равную 1, дающую ограничение

∫ p (x) dx = 1. {\ displaystyle \ int p (x) \, dx = 1.}{\ displaystyle \ int p (x) \, dx = 1.}

Функция плотности вероятности с максимумом H c с учетом этих ограничений:

p (x) = 1 Z (λ 1,…, λ м) д (Икс) ехр ⁡ [λ 1 е 1 (Икс) + ⋯ + λ МФМ (Икс)] {\ Displaystyle р (х) = {\ гидроразрыва {1} {Z (\ lambda _ {1}, \ dotsc, \ lambda _ {m})}} q (x) \ exp \ left [\ lambda _ {1} f_ {1} (x) + \ dotsb + \ lambda _ {m} f_ {m} (x) \ right]}{\ displaystyle p (x) = {\ frac {1} {Z (\ lambda _ {1}, \ dotsc, \ lambda _ {m})}} q (x) \ exp \ left [\ lambda _ {1} f_ { 1} (х) + \ dotsb + \ lambda _ {m} f_ {m} (x) \ right]}

со статистической суммой , определенной как

Z (λ 1,…, λ m) = ∫ q (x) exp ⁡ [λ 1 f 1 (x) + ⋯ + λ mfm (x)] dx. {\ displaystyle Z (\ lambda _ {1}, \ dotsc, \ lambda _ {m}) = \ int q (x) \ exp \ left [\ lambda _ {1} f_ {1} (x) + \ dotsb + \ lambda _ {m} f_ {m} (x) \ right] \, dx.}{\ displaystyle Z (\ lambda _ {1}, \ dotsc, \ lambda _ {m}) = \ int q (x) \ exp \ left [\ lambda _ {1} е_ {1} (x) + \ dotsb + \ lambda _ {m} f_ {m} (x) \ right] \, dx.}

Как и в дискретном случае, в случае, когда все ограничения моментов являются равенствами, значения λ k {\ displaystyle \ lambda _ {k}}\ lambda _ {k} параметры определяются системой нелинейных уравнений:

F k = ∂ ∂ λ k log ⁡ Z (λ 1,…, λ m). {\ displaystyle F_ {k} = {\ frac {\ partial} {\ partial \ lambda _ {k}}} \ log Z (\ lambda _ {1}, \ dotsc, \ lambda _ {m}).}F_ {k} = {\ frac {\ partial} {\ partial \ lambda _ {k}}} \ log Z (\ lambda _ {1}, \ dotsc, \ lambda _ {m}).

В случае с ограничениями момента неравенства множители Лагранжа определяются из решения программы выпуклой оптимизации.

Инвариантная функция меры q (x) может быть лучше всего понята, если предположить, что Известно, что x принимает значения только в ограниченном интервале (a, b), и никакой другой информации не дается. Тогда функция плотности вероятности максимальной энтропии равна

p (x) = A ⋅ q (x), a < x < b {\displaystyle p(x)=A\cdot q(x),\qquad a{\ displaystyle p (x) = A \ cdot q (x), \ qquad a <x <b}

, где A - нормировочная константа. Функция инвариантной меры на самом деле является априорной функцией плотности, кодирующей «недостаток релевантной информации». Он не может быть определен с помощью принципа максимальной энтропии и должен быть определен каким-либо другим логическим методом, таким как принцип групп преобразования или теория маргинализации.

Примеры

Несколько примеров распределений максимальной энтропии см. В статье Вероятностные распределения максимальной энтропии.

Обоснования принципа максимальной энтропии

Сторонники принципа максимальной энтропии оправдывают его использование при назначении вероятностей в нескольких способов, включая следующие два аргумента. Эти аргументы принимают использование байесовской вероятности как данность и, таким образом, подчиняются тем же постулатам.

Информационная энтропия как мера «неинформативности»

Рассмотрим дискретное распределение вероятностей среди m {\ displaystyle m}m взаимоисключающих предложения. Наиболее информативное распределение произошло бы, когда было известно, что одно из утверждений истинно. В этом случае информационная энтропия была бы равна нулю. Наименее информативное распределение произошло бы, когда нет причин отдавать предпочтение одному из предложений по сравнению с другими. В этом случае единственное разумное распределение вероятностей было бы равномерным, и тогда информационная энтропия была бы равна своему максимально возможному значению, log ⁡ m {\ displaystyle \ log m}{\ displaystyle \ log m} . Таким образом, информационная энтропия может рассматриваться как числовая мера, которая описывает, насколько неинформативно конкретное распределение вероятностей, в диапазоне от нуля (полностью информативно) до log ⁡ m {\ displaystyle \ log m}{\ displaystyle \ log m} (полностью малоинформативный).

Принимая решение использовать распределение с максимальной энтропией, разрешенной нашей информацией, мы утверждаем, что мы выбираем наиболее неинформативное возможное распределение. Выбор распределения с более низкой энтропией означал бы предположить, что информация, которой мы не обладаем. Таким образом, максимальное распределение энтропии - единственно разумное распределение. Зависимость решения от доминирующего показателя, представленного m (x) {\ displaystyle m (x)}m (x) , однако, является источником критики подхода, поскольку это доминирующее

Вывод Уоллиса

Следующий аргумент является результатом предположения, сделанного ET Jaynes в 1962 году. По сути, это тот же математический аргумент, который использовался для Статистика Максвелла – Больцмана в статистической механике, хотя концептуальный акцент совершенно иной. Его преимущество состоит в том, что он носит строго комбинаторный характер, не ссылаясь на информационную энтропию как на меру «неопределенности», «неинформативности» или любого другого неточно определенного понятия. Функция информационной энтропии не предполагается априори, а скорее находится в ходе аргументации; и этот аргумент естественным образом приводит к процедуре максимизации информационной энтропии, а не к какому-либо другому подходу к ней.

Предположим, что человек желает присвоить вероятность среди m {\ displaystyle m}m взаимоисключающих предложений. У него есть некоторая проверяемая информация, но он не уверен, как включить эту информацию в свою оценку вероятности. Поэтому он задумал следующий случайный эксперимент. Он распределит N {\ displaystyle N}N квантов вероятности (каждый из которых стоит 1 / N {\ displaystyle 1 / N}{\ displaystyle 1 / N} ) случайным образом среди m {\ displaystyle m}m возможностей. (Можно представить, что он бросит N {\ displaystyle N}N мячей в m {\ displaystyle m}m с завязанными глазами. Чтобы быть справедливым По возможности, каждый бросок должен быть независимым от другого, и все ведра должны быть одинакового размера.) После завершения эксперимента он проверит, соответствует ли полученное таким образом распределение вероятностей его информации. (Чтобы этот шаг был успешным, информация должна быть ограничением, заданным открытым набором в пространстве вероятностных мер). Если это непоследовательно, он отклонит его и попытается снова. Если он согласован, его оценка будет

pi = ni N {\ displaystyle p_ {i} = {\ frac {n_ {i}} {N}}}p_ {i} = {\ frac {n_ {i}} {N}}

, где pi {\ displaystyle p_ {i}}p_ {i} - это вероятность предложения i {\ displaystyle i}i , а n i - количество квантов, которые были назначены предложение i {\ displaystyle i}i (т. е. количество шаров, которые оказались в корзине i {\ displaystyle i}i ).

Теперь, чтобы уменьшить «зернистость» распределения вероятности, необходимо будет использовать довольно большое количество квантов вероятности. Вместо того, чтобы фактически проводить и, возможно, повторять довольно длинный случайный эксперимент, главный герой решает просто вычислить и использовать наиболее вероятный результат. Вероятность любого конкретного результата - это полиномиальное распределение,

P r (p) = W ⋅ m - N {\ displaystyle Pr (\ mathbf {p}) = W \ cdot m ^ {- N}}Pr (\ mathbf {p}) = W \ cdot m ^ {- N}

, где

W = N! п 1! п 2! ⋯ н м! {\ displaystyle W = {\ frac {N!} {n_ {1}! \, n_ {2}! \, \ dotsb \, n_ {m}!}}}W = {\ frac {N!} {n_ {1}! \, n_ {2}! \, \ dotsb \, n_ {m}!}}

иногда называют кратностью результат.

Наиболее вероятный результат - это тот, который максимизирует кратность W {\ displaystyle W}W . Вместо того, чтобы напрямую максимизировать W {\ displaystyle W}W , главный герой мог бы эквивалентно максимизировать любую монотонную функцию увеличения W {\ displaystyle W}W . Он решает максимизировать

1 N log ⁡ W = 1 N log ⁡ N! п 1! п 2! ⋯ н м! = 1 N журнал ⁡ N! (N p 1)! (N p 2)! ⋯ (Нпм)! = 1 N (журнал ⁡ N! - ∑ i = 1 m журнал ⁡ ((N p i)!)). {\ displaystyle {\ begin {align} {\ frac {1} {N}} \ log W = {\ frac {1} {N}} \ log {\ frac {N!} {n_ {1}! \, n_ {2}! \, \ dotsb \, n_ {m}!}} \\ [6pt] = {\ frac {1} {N}} \ log {\ frac {N!} {(Np_ ​​{1})! \, (Np_ {2})! \, \ Dotsb \, (Np_ {m})!}} \\ [6pt] = {\ frac {1} {N}} \ left (\ log N! - \ sum _ {i = 1} ^ {m} \ log ((Np_ {i})!) \ right). \ end {align}}}{\ displaystyle {\ begin {align} {\ frac {1} {N}} \ log W = {\ frac {1} {N}} \ log {\ frac {N!} {n_ {1}! \, n_ {2}! \, \ dotsb \, n_ {m}!}} \\ [6pt] = {\ frac {1} {N}} \ log {\ frac {N !} {(Np_ ​​{1})! \, (Np_ {2})! \, \ Dotsb \, (Np_ {m})!}} \\ [6pt] = {\ frac {1} {N} } \ left (\ log N! - \ sum _ {i = 1} ^ {m} \ log ((Np_ {i})!) \ right). \ end {align}}}

На этом этапе, чтобы упростить выражение, главный герой принимает предел как N → ∞ {\ displaystyle N \ to \ infty}N \ to \ infty , то есть когда уровни вероятности переходят от зернистых дискретных значений к гладким непрерывным значениям. Используя приближение Стирлинга , он находит

lim N → ∞ (1 N log ⁡ W) = 1 N (N log ⁡ N - ∑ i = 1 m N pi log ⁡ (N pi)) = log ⁡ N - ∑ i = 1 mpi log ⁡ (N pi) = log ⁡ N - log ⁡ N ∑ i = 1 mpi - ∑ i = 1 mpi log ⁡ pi = (1 - ∑ i = 1 mpi) log ⁡ N - ∑ я = 1 МПи журнал ⁡ пи = - ∑ я = 1 МПи журнал ⁡ пи = H (р). {\ displaystyle {\ begin {align} \ lim _ {N \ to \ infty} \ left ({\ frac {1} {N}} \ log W \ right) = {\ frac {1} {N}} \ left (N \ log N- \ sum _ {i = 1} ^ {m} Np_ {i} \ log (Np_ {i}) \ right) \\ [6pt] = \ log N- \ sum _ { i = 1} ^ {m} p_ {i} \ log (Np_ {i}) \\ [6pt] = \ log N- \ log N \ sum _ {i = 1} ^ {m} p_ {i} - \ sum _ {i = 1} ^ {m} p_ {i} \ log p_ {i} \\ [6pt] = \ left (1- \ sum _ {i = 1} ^ {m} p_ {i } \ right) \ log N- \ sum _ {i = 1} ^ {m} p_ {i} \ log p_ {i} \\ [6pt] = - \ sum _ {i = 1} ^ {m} p_ {i} \ log p_ {i} \\ [6pt] = H (\ mathbf {p}). \ end {align}}}{\ displaystyle {\ begin {align} \ lim _ {N \ to \ infty} \ left ({\ frac {1 } {N}} \ log W \ right) = {\ frac {1} {N}} \ left (N \ log N- \ sum _ {i = 1} ^ {m} Np_ {i} \ log ( Np_ {i}) \ right) \\ [6pt] = \ log N- \ sum _ {i = 1} ^ {m} p_ {i} \ log (Np_ {i}) \\ [6pt] = \ log N- \ log N \ sum _ {i = 1} ^ {m} p_ {i} - \ sum _ {i = 1} ^ {m} p_ {i} \ log p_ {i} \\ [6pt ] = \ left (1- \ sum _ {i = 1} ^ {m} p_ {i} \ right) \ log N- \ sum _ {i = 1} ^ {m} p_ {i} \ log p_ {i} \\ [6pt] = - \ sum _ {i = 1} ^ {m} p_ {i} \ log p_ {i} \\ [6pt] = H (\ mathbf {p}). \ конец {выровнен}}}

Все, что остается сделать главному герою, - это максимизировать энтропию под ограничения его проверяемой информации. Он обнаружил, что максимальное распределение энтропии является наиболее вероятным из всех «справедливых» случайных распределений в пределе, когда уровни вероятности переходят от дискретного к непрерывному.

Совместимость с теоремой Байеса

Гиффин и Катича (2007) утверждают, что теорема Байеса и принцип максимальной энтропии полностью совместимы и могут рассматриваться как частные случаи «метода максимальной относительной энтропии». Они заявляют, что этот метод воспроизводит все аспекты ортодоксальных методов байесовского вывода. Вдобавок этот новый метод открывает дверь к решению проблем, которые нельзя решить ни с помощью принципа максимальной энтропии, ни с помощью ортодоксальных байесовских методов по отдельности. Более того, недавние публикации (Lazar 2003 и Schennach 2005) показывают, что частотные подходы к логическому выводу на основе относительной энтропии (такие как эмпирическое правдоподобие и - см., Например, Owen 2001 и Kitamura 2006) могут быть объединены с предыдущей информацией для выполнить байесовский апостериорный анализ.

Джейнс заявил, что теорема Байеса была способом вычисления вероятности, в то время как максимальная энтропия была способом присвоить априорное распределение вероятностей.

Однако теоретически возможно решить апостериорное распределение непосредственно из заявленного априорного распределения с использованием принципа минимальной перекрестной энтропии (или принципа максимальной энтропии, являющегося частным случаем использования равномерного распределения в качестве заданного априорного), независимо от любые байесовские соображения, формально рассматривая проблему как задачу оптимизации с ограничениями, при этом функционал энтропии является целевой функцией. Для случая заданных средних значений в качестве проверяемой информации (усредненной по искомому распределению вероятностей) искомым распределением формально является распределение Гиббса (или Больцмана), параметры которого должны быть решены для того, чтобы достичь минимальной перекрестной энтропии и удовлетворить заданную проверяемую информацию.

Соответствие физике

Принцип максимальной энтропии имеет отношение к ключевому допущению кинетической теории газов, известному как молекулярный хаос или Stosszahlansatz. Это утверждает, что функция распределения, характеризующая частицы, вступающие в столкновение, может быть факторизована. Хотя это утверждение можно понимать как строго физическую гипотезу, его также можно интерпретировать как эвристическую гипотезу относительно наиболее вероятной конфигурации частиц перед столкновением.

См. Также
Примечания
Ссылки
Дополнительная литература
Последняя правка сделана 2021-06-02 06:47:31
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте