Ограничение плотности дискретных точек

редактировать
Понятие в теории информации

В теория информации, предельная плотность дискретных точек является корректировкой формулы Клода Шеннона для дифференциальной энтропии.

. Она была сформулирована Эдвином Томпсон Джейнс для устранения недостатков в первоначальном определении дифференциальной энтропии.

Определение

Первоначально Шеннон записал следующую формулу для энтропии непрерывного распределения, известной как дифференциальная энтропия :

h (X) = - ∫ p (x) журнал ⁡ p (x) dx. {\ displaystyle h (X) = - \ int p (x) \ log p (x) \, dx.}{\ displaystyle h (X) = - \ int p (x) \ log p (x) \, dx.}

Однако, в отличие от формулы Шеннона для дискретной энтропии, это не результат какого-либо вывода (Шеннон просто заменил символ суммирования в дискретной версии на интеграл), и оказалось, что отсутствуют многие свойства, которые делают дискретную энтропию полезной мерой неопределенности. В частности, он не инвариантен при замене переменных и даже может стать отрицательным. Кроме того, это даже неверно по размерам. Поскольку P (x) {\ displaystyle P (x)}P (x) будет безразмерным, p (x) {\ displaystyle p (x)}{\ displaystyle p (x)} должен иметь единицы измерения of 1 dx {\ displaystyle {\ frac {1} {dx}}}{\ displaystyle {\ frac {1} {dx}}} , что означает, что аргумент логарифма не является безразмерным, как требуется.

Джейнс (1963, 1968) утверждал, что формулу для непрерывной энтропии следует выводить, взяв предел все более плотных дискретных распределений. Предположим, что у нас есть набор N {\ displaystyle N}N дискретных точек {xi} {\ displaystyle \ {x_ {i} \}}\ {x_i \} , например что в пределе N → ∞ {\ displaystyle N \ to \ infty}N \ to \ infty их плотность приближается к функции m (x) {\ displaystyle m (x)}m ( x) называется «инвариантная мера».

lim N → ∞ 1 N (количество точек в < x < b) = ∫ a b m ( x) d x {\displaystyle \lim _{N\to \infty }{\frac {1}{N}}\,({\t_dv{number of points in }}a{\ displaystyle \ lim _ {N \ to \ infty} {\ frac {1} {N}} \, ({\ t_dv {количество точек в}} a <x <b) = \ int _ {a} ^ {b} m (x) \, dx}

Джейнс вывел из этого следующую формулу для непрерывной энтропии, которую, как он утверждал, следует принимать как правильную формулу:

lim N → ∞ HN ( Икс) знак равно журнал ⁡ (N) - ∫ п (Икс) журнал ⁡ п (Икс) м (Икс) dx. {\ Displaystyle \ lim _ {N \ rightarrow \ infty} H_ {N} (X) = \ log ( N) - \ int p (x) \ log {\ frac {p (x)} {m (x)}} \, dx.}{\ Displaystyle \ lim _ {N \ rightarrow \ infty} H_ {N} (X) = \ log (N) - \ int p (x) \ log {\ frac {p (x)} {m (x)} } \, dx.}

Обычно, когда это написано, термин log ⁡ ( N) {\ displaystyle \ log (N)}{\ displaystyle \ log (N)} опускается, так как обычно это не будет конечным. Таким образом, фактическое общее определение:

H (X) = - ∫ p (x) log ⁡ п (Икс) м (Икс) dx. {\ Displaystyle H (X) = - \ int p (x) \ log {\ frac {p (x)} {m (x)}} \, dx.}{\ displaystyle H (X) = - \ int p (x) \ log {\ frac {p (x)} {m (x)}} \, dx.}

Если неясно, следует ли опускать термин log ⁡ (N) {\ displaystyle \ log (N)}{\ displaystyle \ log (N)} , можно написать

HN (X) ∼ log ⁡ (N) + ЧАС (Икс) {\ Displaystyle H_ {N} (X) \ sim \ log (N) + H (X)}{\ displaystyle H_ {N} (X) \ sim \ log (N) + H (X)}

Обратите внимание, что в формуле Джейнса m (x) {\ displaystyle m (x)}m (x) - плотность вероятности. Понятно, что для любого плавника ite N {\ displaystyle N}N , что m (x) {\ displaystyle m (x)}m (x) представляет собой просто равномерную плотность по квантованию непрерывного пространства который используется в сумме Римана. В пределе m (x) {\ displaystyle m (x)}m (x) - это непрерывная предельная плотность точек при квантовании, используемая для представления непрерывной переменной x {\ displaystyle x}x .

Предположим, у кого-то есть числовой формат, который принимает N {\ displaystyle N}N возможных значений, распределенных согласно m (x) {\ displaystyle m (x)}m (x) . Тогда HN (X) {\ displaystyle H_ {N} (X)}{\ displaystyle H_ {N} (X)} (если N {\ displaystyle N}N достаточно велико, чтобы непрерывное приближение действительный) - дискретная энтропия переменной x {\ displaystyle x}x в этой кодировке. Это равно среднему числу битов, необходимых для передачи этой информации, и составляет не более log ⁡ (N) {\ displaystyle \ log (N)}{\ displaystyle \ log (N)} . Следовательно, H (X) {\ displaystyle H (X)}{\ displaystyle H (X)} можно рассматривать как количество информации, полученной, зная, что переменная x {\ displaystyle x}x следует распределению p (x) {\ displaystyle p (x)}{\ displaystyle p (x)} и не распределяется равномерно по возможным квантованным значениям, как это было бы в случае, если бы оно следовало m (x) {\ displaystyle m (x)}m (x) . H (X) {\ displaystyle H (X)}H (X) на самом деле (отрицательное) расхождение Кульбака – Лейблера от m (x) {\ displaystyle m (x)}m ( x) to p (x) {\ displaystyle p (x)}{\ displaystyle p (x)} , который рассматривается как информация, полученная в результате изучения того, что переменная, ранее считавшаяся распределенной как m (x) {\ displaystyle m (x)}m (x) , фактически распределяется как p (x) {\ displaystyle p ( x)}{\ displaystyle p (x)} .

Формула непрерывной энтропии Джейнса имеет свойство быть инвариантной при замене переменных при условии, что m (x) {\ displaystyle m (x)}m ( x) и p (x) {\ displaystyle p (x)}p (x) трансфо таким же образом. (Отсюда и название «инвариантная мера» для m.) Это решает многие трудности, возникающие при применении формулы Шеннона для непрерывной энтропии. Сам Джейнс отказался от термина log ⁡ (N) {\ displaystyle \ log (N)}{\ displaystyle \ log (N)} , поскольку он не имел отношения к его работе (максимальное распределение энтропии), и несколько неловко иметь бесконечный срок в расчете. К сожалению, с этим ничего не поделать, если квантование выполняется произвольно точно, как это было бы в случае непрерывного предела. Обратите внимание, что H (X) {\ displaystyle H (X)}{\ displaystyle H (X)} , как определено здесь (без log ⁡ (N) {\ displaystyle \ log (N)}{\ displaystyle \ log (N)} term) всегда будет неположительным, потому что расхождение KL всегда будет неотрицательным.

Если это так, что m (x) {\ displaystyle m (x)}m (x) постоянно в некотором интервале размера r {\ displaystyle r}r и p (x) {\ displaystyle p (x)}{\ displaystyle p (x)} по существу равно нулю за пределами этого интервала, тогда предельная плотность дискретных точек (LDDP) тесно связана с дифференциальная энтропия час (X) {\ displaystyle h (X)}h (X)

HN (X) ≈ log ⁡ (N) - log ⁡ (r) + h (X) {\ displaystyle H_ {N} (X) \ приблизительно \ log (N) - \ log (r) + h (X)}{\ displaystyle H_ {N} (X) \ приблизительно \ log (N) - \ log (r) + h (X)}
Ссылки
  • Jaynes, ET (2003). Теория вероятностей: логика науки. Издательство Кембриджского университета. ISBN 978-0521592710.
Последняя правка сделана 2021-05-27 09:56:09
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте