Ограничение плотности дискретных точек

редактировать

Понятие в теории информации

В теория информации, предельная плотность дискретных точек является корректировкой формулы Клода Шеннона для дифференциальной энтропии.

. Она была сформулирована Эдвином Томпсон Джейнс для устранения недостатков в первоначальном определении дифференциальной энтропии.

Определение

Первоначально Шеннон записал следующую формулу для энтропии непрерывного распределения, известной как дифференциальная энтропия :

h (X) = - ∫ p (x) журнал ⁡ p (x) dx. {\ displaystyle h (X) = - \ int p (x) \ log p (x) \, dx.}

{\ displaystyle h (X) = - \ int p (x) \ log p (x) \, dx.}

Однако, в отличие от формулы Шеннона для дискретной энтропии, это не результат какого-либо вывода (Шеннон просто заменил символ суммирования в дискретной версии на интеграл), и оказалось, что отсутствуют многие свойства, которые делают дискретную энтропию полезной мерой неопределенности. В частности, он не инвариантен при замене переменных и даже может стать отрицательным. Кроме того, это даже неверно по размерам. Поскольку $P (x) {\ displaystyle P (x)}$ $P (x)$ будет безразмерным, $p (x) {\ displaystyle p (x)}$ ${\ displaystyle p (x)}$ должен иметь единицы измерения of $1 dx {\ displaystyle {\ frac {1} {dx}}}$ ${\ displaystyle {\ frac {1} {dx}}}$ , что означает, что аргумент логарифма не является безразмерным, как требуется.

Джейнс (1963, 1968) утверждал, что формулу для непрерывной энтропии следует выводить, взяв предел все более плотных дискретных распределений. Предположим, что у нас есть набор $N {\ displaystyle N}$ $N$ дискретных точек ${xi} {\ displaystyle \ {x_ {i} \}}$ $\ {x_i \}$ , например что в пределе $N → ∞ {\ displaystyle N \ to \ infty}$ $N \ to \ infty$ их плотность приближается к функции $m (x) {\ displaystyle m (x)}$ $m ( x)$ называется «инвариантная мера».

lim N → ∞ 1 N (количество точек в < x < b) = ∫ a b m ( x) d x {\displaystyle \lim _{N\to \infty }{\frac {1}{N}}\,({\t_dv{number of points in }}a

{\ displaystyle \ lim _ {N \ to \ infty} {\ frac {1} {N}} \, ({\ t_dv {количество точек в}} a <x <b) = \ int _ {a} ^ {b} m (x) \, dx}

Джейнс вывел из этого следующую формулу для непрерывной энтропии, которую, как он утверждал, следует принимать как правильную формулу:

lim N → ∞ HN ( Икс) знак равно журнал ⁡ (N) - ∫ п (Икс) журнал ⁡ п (Икс) м (Икс) dx. {\ Displaystyle \ lim _ {N \ rightarrow \ infty} H_ {N} (X) = \ log ( N) - \ int p (x) \ log {\ frac {p (x)} {m (x)}} \, dx.}

{\ Displaystyle \ lim _ {N \ rightarrow \ infty} H_ {N} (X) = \ log (N) - \ int p (x) \ log {\ frac {p (x)} {m (x)} } \, dx.}

Обычно, когда это написано, термин $log ⁡ ( N) {\ displaystyle \ log (N)}$ ${\ displaystyle \ log (N)}$ опускается, так как обычно это не будет конечным. Таким образом, фактическое общее определение:

H (X) = - ∫ p (x) log ⁡ п (Икс) м (Икс) dx. {\ Displaystyle H (X) = - \ int p (x) \ log {\ frac {p (x)} {m (x)}} \, dx.}

{\ displaystyle H (X) = - \ int p (x) \ log {\ frac {p (x)} {m (x)}} \, dx.}

Если неясно, следует ли опускать термин $log ⁡ (N) {\ displaystyle \ log (N)}$ ${\ displaystyle \ log (N)}$ , можно написать

HN (X) ∼ log ⁡ (N) + ЧАС (Икс) {\ Displaystyle H_ {N} (X) \ sim \ log (N) + H (X)}

{\ displaystyle H_ {N} (X) \ sim \ log (N) + H (X)}

Обратите внимание, что в формуле Джейнса $m (x) {\ displaystyle m (x)}$ $m (x)$ - плотность вероятности. Понятно, что для любого плавника ite $N {\ displaystyle N}$ $N$ , что $m (x) {\ displaystyle m (x)}$ $m (x)$ представляет собой просто равномерную плотность по квантованию непрерывного пространства который используется в сумме Римана. В пределе $m (x) {\ displaystyle m (x)}$ $m (x)$ - это непрерывная предельная плотность точек при квантовании, используемая для представления непрерывной переменной $x {\ displaystyle x}$ $x$ .

Предположим, у кого-то есть числовой формат, который принимает $N {\ displaystyle N}$ $N$ возможных значений, распределенных согласно $m (x) {\ displaystyle m (x)}$ $m (x)$ . Тогда $HN (X) {\ displaystyle H_ {N} (X)}$ ${\ displaystyle H_ {N} (X)}$ (если $N {\ displaystyle N}$ $N$ достаточно велико, чтобы непрерывное приближение действительный) - дискретная энтропия переменной $x {\ displaystyle x}$ $x$ в этой кодировке. Это равно среднему числу битов, необходимых для передачи этой информации, и составляет не более $log ⁡ (N) {\ displaystyle \ log (N)}$ ${\ displaystyle \ log (N)}$ . Следовательно, $H (X) {\ displaystyle H (X)}$ ${\ displaystyle H (X)}$ можно рассматривать как количество информации, полученной, зная, что переменная $x {\ displaystyle x}$ $x$ следует распределению $p (x) {\ displaystyle p (x)}$ ${\ displaystyle p (x)}$ и не распределяется равномерно по возможным квантованным значениям, как это было бы в случае, если бы оно следовало $m (x) {\ displaystyle m (x)}$ $m (x)$ . $H (X) {\ displaystyle H (X)}$ $H (X)$ на самом деле (отрицательное) расхождение Кульбака – Лейблера от $m (x) {\ displaystyle m (x)}$ $m ( x)$ to $p (x) {\ displaystyle p (x)}$ ${\ displaystyle p (x)}$ , который рассматривается как информация, полученная в результате изучения того, что переменная, ранее считавшаяся распределенной как $m (x) {\ displaystyle m (x)}$ $m (x)$ , фактически распределяется как $p (x) {\ displaystyle p ( x)}$ ${\ displaystyle p (x)}$ .

Формула непрерывной энтропии Джейнса имеет свойство быть инвариантной при замене переменных при условии, что $m (x) {\ displaystyle m (x)}$ $m ( x)$ и $p (x) {\ displaystyle p (x)}$ $p (x)$ трансфо таким же образом. (Отсюда и название «инвариантная мера» для m.) Это решает многие трудности, возникающие при применении формулы Шеннона для непрерывной энтропии. Сам Джейнс отказался от термина $log ⁡ (N) {\ displaystyle \ log (N)}$ ${\ displaystyle \ log (N)}$ , поскольку он не имел отношения к его работе (максимальное распределение энтропии), и несколько неловко иметь бесконечный срок в расчете. К сожалению, с этим ничего не поделать, если квантование выполняется произвольно точно, как это было бы в случае непрерывного предела. Обратите внимание, что $H (X) {\ displaystyle H (X)}$ ${\ displaystyle H (X)}$ , как определено здесь (без $log ⁡ (N) {\ displaystyle \ log (N)}$ ${\ displaystyle \ log (N)}$ term) всегда будет неположительным, потому что расхождение KL всегда будет неотрицательным.

Если это так, что $m (x) {\ displaystyle m (x)}$ $m (x)$ постоянно в некотором интервале размера $r {\ displaystyle r}$ $r$ и $p (x) {\ displaystyle p (x)}$ ${\ displaystyle p (x)}$ по существу равно нулю за пределами этого интервала, тогда предельная плотность дискретных точек (LDDP) тесно связана с дифференциальная энтропия $час (X) {\ displaystyle h (X)}$ $h (X)$

HN (X) ≈ log ⁡ (N) - log ⁡ (r) + h (X) {\ displaystyle H_ {N} (X) \ приблизительно \ log (N) - \ log (r) + h (X)}

{\ displaystyle H_ {N} (X) \ приблизительно \ log (N) - \ log (r) + h (X)}

Ссылки

Jaynes, ET (2003). Теория вероятностей: логика науки. Издательство Кембриджского университета. ISBN 978-0521592710.