В статистике и теории информации максимальное распределение вероятностей энтропии имеет энтропию, по крайней мере, такую же большую, как у всех других членов указанного класса распределений вероятностей. Согласно принципу максимальной энтропии, если о распределении ничего не известно, кроме того, что оно принадлежит к определенному классу (обычно определяемому в терминах определенных свойств или мер), то распределение с наибольшей энтропией следует выбирать как наименее информативное. дефолт. Мотивация двоякая: во-первых, максимизация энтропии сводит к минимуму количество априорной информации. встроен в раздачу; во-вторых, многие физические системы со временем стремятся к максимальным конфигурациям энтропии.
СОДЕРЖАНИЕ
- 1 Определение энтропии и дифференциальной энтропии
- 2 Распределения с измеренными константами
- 2.1 Непрерывный случай
- 2.2 Дискретный корпус
- 2.3 Доказательство в случае ограничений-равенств
- 2.4 Уникальность максимума
- 2.5 Предостережения
- 3 Примеры
- 3.1 Равномерные и кусочно-однородные распределения
- 3.2 Положительное и указанное среднее: экспоненциальное распределение
- 3.3 Заданная дисперсия: нормальное распределение
- 3.4 Дискретные распределения с заданным средним значением
- 3.5 Круговые случайные величины
- 3.6 Максимизатор для указанного среднего, дисперсии и перекоса
- 3.7 Максимизатор для указанной меры риска среднего и отклонения
- 3.8 Другие примеры
- 4 См. Также
- 5 Примечания
- 6 цитат
- 7 ссылки
Определение энтропии и дифференциальной энтропии
Дополнительная информация:
Энтропия (теория информации) Если - дискретная случайная величина с распределением, заданным формулой
то энтропия определяется как
Если это непрерывная случайная величина с плотностью вероятности, то дифференциальной энтропии в определяется как
Количество всегда считается равным нулю.
Это частный случай более общих форм, описанных в статьях Энтропия (теория информации), Принцип максимальной энтропии и дифференциальная энтропия. В связи с максимальным распределением энтропии это единственное необходимое, потому что максимизация также максимизирует более общие формы.
Основание логарифма не имеет значения, если одно и то же используется последовательно: изменение основания просто приводит к изменению масштаба энтропии. Теоретики информации могут предпочесть использовать основание 2 для выражения энтропии в битах ; математики и физики часто предпочитают натуральный логарифм, в результате чего энтропия выражается в единицах нат.
Однако выбор меры имеет решающее значение для определения энтропии и результирующего максимального распределения энтропии, даже несмотря на то, что обычное обращение к мере Лебега часто защищается как «естественное».
Распределения с измеренными константами
Многие статистические распределения, представляющие применимый интерес, - это те, для которых моменты или другие измеримые величины должны быть постоянными. Следующая теорема Людвига Больцмана дает форму плотности вероятности при этих ограничениях.
Непрерывный случай
Пусть S является замкнутым подмножеством из действительных чисел R, и мы решили задать п измеримых функций F 1,..., х п и п чисел 1,..., н. Мы рассматриваем класс C всех действительных случайных величин, которые поддерживаются на S (т.е. чья функция плотности равна нулю вне S) и которые удовлетворяют условиям n моментов:
Если в C есть член, функция плотности которого положительна всюду в S, и если существует максимальное распределение энтропии для C, то его плотность вероятности p ( x) имеет следующий вид:
где мы предполагаем, что. Константа и n множителей Лагранжа решают задачу оптимизации с ограничениями (это условие обеспечивает интеграцию до единицы):
Используя условия Каруша – Куна – Таккера, можно показать, что задача оптимизации имеет единственное решение, поскольку целевая функция в оптимизации является вогнутой.
Обратите внимание, что если моментными условиями являются равенства (а не неравенства), то есть
затем условие ограничения отбрасывается, что делает оптимизацию по множителям Лагранжа неограниченной.
Дискретный корпус
Предположим, есть (конечное или бесконечное) дискретное подмножество вещественных чисел, и мы решили указать функции f 1,..., f n и n чисел a 1,..., a n. Мы рассматриваем класс C всех дискретных случайных величин X, которые поддерживаются на S и удовлетворяют условиям n моментов
Если существует член C, который присваивает положительную вероятность всем членам S, и если существует максимальное распределение энтропии для C, то это распределение имеет следующую форму:
где мы предполагаем, что и константы решают задачу оптимизации с ограничениями с помощью:
Опять же, если моментными условиями являются равенства (а не неравенства), то условие ограничения не присутствует в оптимизации.
Доказательство в случае ограничений-равенств
В случае ограничений типа равенства эта теорема доказывается с помощью вариационного исчисления и множителей Лагранжа. Ограничения можно записать как
Мы рассматриваем функционал
где и - множители Лагранжа. Нулевое ограничение обеспечивает вторую аксиому вероятности. Другие ограничения заключаются в том, что измерениям функции задаются постоянные по порядку. Энтропия достигает экстремума, когда функциональная производная равна нулю:
Читателю станет упражнением, что этот экстремум действительно является максимумом. Следовательно, максимальное распределение вероятностей энтропии в этом случае должно иметь вид ()
Доказательство дискретной версии по сути такое же.
Уникальность максимум
Предположим, есть распределения, удовлетворяющие ограничениям на ожидание. Допуская и учитывая распределение, становится ясно, что это распределение удовлетворяет ограничениям на ожидание и, кроме того, имеет поддержку. Исходя из основных фактов об энтропии, он утверждает, что это. Принимая пределы и соответственно урожайности.
Отсюда следует, что распределение, удовлетворяющее ограничениям на ожидание и максимизирующее энтропию, обязательно должно иметь полную поддержку, т. Е. Распределение почти везде положительно. Отсюда следует, что максимизирующее распределение должно быть внутренней точкой в пространстве распределений, удовлетворяющих ограничениям на ожидание, то есть оно должно быть локальным экстремумом. Таким образом, достаточно показать, что локальный экстремум уникален, чтобы показать и то, и другое, что максимизирующее энтропию распределение уникально (и это также показывает, что локальный экстремум является глобальным максимумом).
Допустим, это локальные крайности. Переформулируя приведенные выше вычисления, они характеризуются параметрами via и аналогично для, где. Теперь отметим ряд тождеств: через удовлетворение ограничений на ожидание и использование градиентов / производных по направлениям, и аналогично для. Позволяя получить:
где для некоторых. Дальнейшие вычисления
где аналогично приведенному выше распределению, только параметризовано. Предполагая, что никакая нетривиальная линейная комбинация наблюдаемых почти всюду (п.в.) константа (что, например, имеет место, если наблюдаемые независимы, а не п.в. константами), верно, что имеет ненулевую дисперсию, если только. Таким образом, из приведенного выше уравнения ясно, что так и должно быть. Следовательно, параметры, характеризующие локальные экстремумы, идентичны, а значит, идентичны сами распределения. Таким образом, локальный экстремум уникален, и, согласно приведенному выше обсуждению, максимум уникален - при условии, что локальный экстремум действительно существует.
Предостережения
Обратите внимание, что не все классы распределений содержат максимальное распределение энтропии. Возможно, что класс содержит распределения произвольно большой энтропии (например, класс всех непрерывных распределений на R со средним 0, но произвольным стандартным отклонением), или что энтропии ограничены сверху, но нет распределения, которое достигает максимальной энтропии. Также возможно, что ожидаемая величина ограничения для класса C заставить распределение вероятностей равна нулю в некоторых подмножеств S. В этом случае наша теорема не применяется, но можно обойти эту проблему, сокращая набор S.
Примеры
Каждое распределение вероятностей является тривиальным распределением вероятностей максимальной энтропии при условии, что это распределение имеет собственную энтропию. Чтобы увидеть это, перепишите плотность как и сравните с выражением теоремы выше. Выбрав измеримую функцию и
быть константой, является максимальным распределением вероятности энтропии при ограничении
- .
Нетривиальными примерами являются распределения, на которые накладываются несколько ограничений, отличных от назначения энтропии. Их часто можно найти, начав с одной и той же процедуры и обнаружив, что их можно разделить на части.
Таблица примеров распределения максимальной энтропии приведена в работах Лисмана (1972) и Парк и Бера (2009).
Равномерные и кусочно-однородные распределения
Равномерное распределение на отрезке [, Ь ] является максимальное распределение энтропии среди всех непрерывных распределений, которые поддерживаются в интервале [, Ь ], и, следовательно, плотность вероятности равна 0 вне интервала. Эта однородная плотность может быть связана с принципом безразличия Лапласа, который иногда называют принципом недостаточной причины. В более общем смысле, если нам дано подразделение a = a 0 lt; a 1 lt;... lt; a k = b интервала [ a, b ] и вероятности p 1,..., p k, которые в сумме дают единицу, то можно рассмотреть класс всех непрерывных распределений таких, что
Плотность распределения максимальной энтропии для этого класса постоянна на каждом из интервалов [ a j -1, a j). Равномерное распределение на конечном множестве { x 1,..., x n } (которое присваивает вероятность 1 / n каждому из этих значений) является максимальным распределением энтропии среди всех дискретных распределений, поддерживаемых на этом множестве.
Положительное и указанное среднее: экспоненциальное распределение
Экспоненциальное распределение, при котором функция плотности
является максимальным распределением энтропии среди всех непрерывных распределений, поддерживаемых в [0, ∞), которые имеют заданное среднее значение 1 / λ.
Заданная дисперсия: нормальное распределение
Нормальное распределение N (μ, σ 2), для которых функция плотности
имеет максимальную энтропию среди всех вещественнозначных распределений с носителем на (−∞, ∞) с заданной дисперсией σ 2 (конкретный момент ). Следовательно, предположение о нормальности налагает минимальные априорные структурные ограничения после этого момента. (См. Вывод в статье о дифференциальной энтропии. )
В случае распределений, поддерживаемых на [0, ∞), максимальное распределение энтропии зависит от соотношений между первым и вторым моментами. В определенных случаях это может быть экспоненциальное распределение, может быть другое распределение или может быть неопределимым.
Дискретные распределения с заданным средним значением
Среди всех дискретных распределений, поддерживаемых на множестве { x 1,..., x n } с заданным средним μ, максимальное распределение энтропии имеет следующую форму:
где положительные константы C и r могут быть определены с помощью требований, согласно которым сумма всех вероятностей должна быть равна 1, а ожидаемое значение должно быть μ.
Например, если большое число N кости брошены, и вы сказали, что сумма всех показанных чисел S. Основываясь только на этой информации, какое будет разумное предположение для количества игральных костей, показывающих 1, 2,..., 6? Это является примером ситуации, рассмотренной выше, с { х 1,..., х 6 } = {1,..., 6}, и μ = S / N.
Наконец, среди всех дискретных распределений, поддерживаемых бесконечным множеством со средним значением μ, максимальное распределение энтропии имеет форму:
где снова константы C и r были определены из требований, что сумма всех вероятностей должна быть 1, а ожидаемое значение должно быть μ. Например, в случае, когда x k = k, это дает
такое, что соответствующее максимальное распределение энтропии является геометрическим распределением.
Круговые случайные величины
Для непрерывной случайной величины, распределенной вокруг единичного круга, распределение фон Мизеса максимизирует энтропию, когда указаны действительная и мнимая части первого кругового момента или, что то же самое, заданы круговое среднее и круговая дисперсия.
Если заданы среднее значение и дисперсия углов по модулю, обернутое нормальное распределение максимизирует энтропию.
Максимизатор для указанного среднего, дисперсии и перекоса
Существует верхняя граница энтропии непрерывных случайных величин с заданными средним значением, дисперсией и перекосом. Однако не существует распределения, которое достигает этой верхней границы, потому что оно неограничено, за исключением случаев (см. Cover amp; Thomas (2006: глава 12)).
Однако максимальная энтропия ε- достижима: энтропия распределения может быть сколь угодно близкой к верхней границе. Начните с нормального распределения указанного среднего и дисперсии. Чтобы ввести положительный перекос, немного сместите нормальное распределение вверх со значением, на много σ большим, чем среднее значение. На асимметрию, пропорциональную третьему моменту, повлияет больше, чем на моменты более низкого порядка.
Максимизатор для указанной меры риска среднего и отклонения
Каждое распределение с логарифмически вогнутой плотностью максимальное распределение энтропии с указанным средним ц и отклонение риска меры D.
В частности, максимальное распределение энтропии с указанным средним значением и отклонением составляет:
- Нормальное распределение, если это стандартное отклонение ;
- Распределение Лапласа, если - среднее абсолютное отклонение ;
- Распределение с плотностью вида, если является стандартной нижней полу-отклонение, где и а, б, в константы.
Другие примеры
В таблице ниже каждое перечисленное распределение максимизирует энтропию для определенного набора функциональных ограничений, перечисленных в третьем столбце, и ограничения, в соответствии с которым x должен быть включен в поддержку плотности вероятности, которая указана в четвертом столбце. Перечисленные несколько примеров (Бернулли, геометрический, экспоненциальный, Лаплас, Парето) тривиально верны, потому что связанные с ними ограничения эквивалентны назначению их энтропии. Они все равно включены, потому что их ограничение связано с общей или легко измеряемой величиной. Для справки: - это гамма-функция, - это дигамма-функция, - это бета-функция, а γ E - постоянная Эйлера-Маскерони.
Таблица вероятностных распределений и соответствующих ограничений максимальной энтропии Название дистрибутива | Плотность вероятности / функция массы | Ограничение максимальной энтропии | Служба поддержки |
Равномерное (дискретное) | | Никто | |
Равномерное (непрерывное) | | Никто | |
Бернулли | | | |
Геометрический | | | |
Экспоненциальный | | | |
Лаплас | | | |
Асимметричный лаплас | | | |
Парето | | | |
Нормальный | | | |
Усеченный нормальный | (см. статью) | | |
фон Мизес | | | |
Рэлей | | | |
Бета | для | | |
Коши | | | |
Чи | | | |
Хи-квадрат | | | |
Erlang | | | |
Гамма | | | |
Логнормальный | | | |
Максвелл – Больцманн | | | |
Weibull | | | |
Многомерный нормальный | | | |
Биномиальный | | | |
Пуассон | | | |
Смотрите также
Примечания
Цитаты
использованная литература
- Обложка, ТМ ; Томас, Дж. А. (2006). «Глава 12, Максимальная энтропия» (PDF). Элементы теории информации (2-е изд.). Вайли. ISBN 978-0471241959.
- Ф. Нильсен, Р. Нок (2017), Верхние границы MaxEnt для дифференциальной энтропии одномерных непрерывных распределений, IEEE Signal Processing Letters, 24 (4), 402-406
- IJ Taneja (2001), Общие информационные меры и их приложения. Глава 1
- Нэдер Ebrahimi, Эхсан С. Soofi, Рефик Сойер (2008), "идентификация максимального Многофакторный энтропии, преобразование, и зависимость", журнал многофакторного анализа 99: 1217-1231, DOI : 10.1016 / j.jmva.2007.08.004