Теория информации и теория меры

редактировать

В этой статье обсуждается, как теория информации (раздел математики, изучающий передачу, обработку и хранение из информации ) относится к теории меры (раздел математики, связанный с интегрированием и вероятностью ).

Содержание

1 Меры в теории информации
2 Энтропия как «мера»
3 Многомерная взаимная информация
4 Ссылки
5 См. Также

Меры в теории информации

Многие концепции теории информации имеют отдельные определения и формулы для непрерывных и дискретных случаев. Например, энтропия $H (X) {\ displaystyle \ mathrm {H} (X)}$ ${\ displaystyle \ mathrm {H} (X)}$ обычно определяется для дискретных случайных величин, тогда как для непрерывных случайных величин связанные Используется концепция дифференциальной энтропии, записываемая как $h (X) {\ displaystyle h (X)}$ $h (X)$ (см. Cover and Thomas, 2006, глава 8). Обе эти концепции являются математическими ожиданиями, но математическое ожидание определяется с помощью интеграла для непрерывного случая и суммы для дискретного случая.

Эти отдельные определения могут быть более тесно связаны с точки зрения теории меры. Для дискретных случайных величин функции вероятности и массы можно рассматривать как функции плотности по отношению к счетной мере. Думая об интеграле и сумме как об интегрировании в пространстве мер, можно использовать единый подход.

Рассмотрим формулу дифференциальной энтропии непрерывной случайной величины $X {\ displaystyle X}$ $X$ с диапазоном $R {\ displaystyle \ mathbb {R}}$ $\ mathbb {R}$ и функция плотности вероятности $f (x) {\ displaystyle f (x)}$ $f(x)$ :

h (X) = - ∫ R f (x) журнал ⁡ f (x) dx. {\ displaystyle h (X) = - \ int _ {\ mathbb {R}} f (x) \ log f (x) \, dx.}

{\ displaystyle h (X) = - \ int _ {\ mathbb {R}} f (x) \ log f (x) \, dx.}

Обычно это можно интерпретировать как следующее: Riemann– Интеграл Стилтьеса :

час (X) = - ∫ R f (x) журнал ⁡ f (x) d μ (x), {\ displaystyle h (X) = - \ int _ {\ mathbb {R}} f ( x) \ log f (x) \, d \ mu (x),}

{\ displaystyle h (X) = - \ int _ {\ mathbb {R}} f (x) \ log f (x) \, d \ mu (x),}

где $μ {\ displaystyle \ mu}$ $\ mu$ - мера Лебега.

Если вместо этого, $X {\ displaystyle X}$ $X$ дискретный, с диапазоном $Ω {\ displaystyle \ Omega}$ $\ Omega$ конечным набором, $f {\ displaystyle f}$ $f$ - функция массы вероятности на $Ω {\ displaystyle \ Omega}$ $\ Omega$ , а $ν {\ displaystyle \ nu}$ $\ nu$ - счетная мера на $Ω {\ displaystyle \ Omega}$ $\ Omega$ , мы можем написать:

H (X) = - ∑ x ∈ Ω f (x) log ⁡ f (x) = - ∫ Ω f (x) журнал ⁡ f (x) d ν (x). {\ displaystyle \ mathrm {H} (X) = - \ sum _ {x \ in \ Omega} f (x) \ log f (x) = - \ int _ {\ Omega} f (x) \ log f ( x) \, d \ nu (x).}

{\ displaystyle \ mathrm {H} (X) = - \ sum _ {x \ in \ Omega} f (x) \ log f (x) = - \ int _ {\ Omega} е (х) \ журнал е (х) \, d \ ню (х).}

Интегральное выражение и общая концепция идентичны в непрерывном случае; единственная разница - это используемая мера. В обоих случаях функция плотности вероятности $f {\ displaystyle f}$ $f$ является производной Радона – Никодима от вероятностной меры относительно меры против который берется интеграл.

Если $P {\ displaystyle P}$ $P$ - мера вероятности, вызванная $X {\ displaystyle X}$ $X$ , то интеграл также может быть взяты непосредственно относительно $P {\ displaystyle P}$ $P$ :

h (X) = - ∫ X log ⁡ d P d μ d P, {\ displaystyle h (X) = - \ int _ {X} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d} \ mu}} \, dP,}

{\ displaystyle h (X) = - \ int _ {X} \ log {\ гидроразрыв {\ mathrm {d} P} {\ mathrm {d} \ mu}} \, dP,}

Если вместо основной меры μ мы берем другую вероятностную меру $Q {\ displaystyle Q }$ $Q$ , мы приходим к расхождению Кульбака – Лейблера : let $P {\ displaystyle P}$ $P$ и $Q {\ displaystyle Q}$ $Q$ быть вероятностными мерами в одном и том же пространстве. Тогда, если $P {\ displaystyle P}$ $P$ абсолютно непрерывен по отношению к $Q {\ displaystyle Q}$ $Q$ , записывается $P ≪ Q, {\ displaystyle P \ ll Q,}$ ${\ displaystyle P \ ll Q,}$ производная Радона – Никодима $d P d Q {\ displaystyle {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}}}$ ${\ displaystyle { \ frac {\ mathrm {d} P} {\ mathrm {d} Q}}}$ существует, и расхождение Кульбака – Лейблера может быть выражено в его полной общности:

D KL (P ‖ Q) = ∫ supp ⁡ P d P d Q журнал ⁡ d п d Q d Q знак равно ∫ supp ⁡ п журнал ⁡ d п d Q d P, {\ displaystyle D _ {\ operatorname {KL}} (P \ | Q) = \ int _ {\ operatorname {supp} P } {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \, dQ = \ int _ {\ operatorname {supp} P} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \, dP,}

{\ displaystyle D _ {\ operatorname {KL}} (P \ | Q) = \ int _ {\ operatorname {supp} P} {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d } Q}} \, dQ = \ int _ {\ operatorname {supp} P} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \, dP,}

где интеграл проходит по опоре из $п. {\ displaystyle P.}$ $P.$ Обратите внимание, что мы опустили отрицательный знак: расхождение Кульбака – Лейблера всегда неотрицательно из-за неравенства Гиббса.

Энтропия как «мера»

Диаграмма Венна для различных информационных мер, связанных с коррелированными переменными X и Y. Площадь, содержащаяся в обоих кругах, является совместной энтропией H (X, Y). Круг слева (красный и голубой) - это индивидуальная энтропия H (X), красный - условная энтропия H (X | Y). Круг справа (синий и голубой) - это H (Y), а синий - H (Y | X). Голубой - это взаимная информация I (X; Y).

диаграмма Венна теоретико-информационных мер для трех переменных x, y и z. Каждый кружок представляет индивидуальную энтропию : H (x) - нижний левый кружок, H (y) - нижний правый, а H (z) - верхний кружок. Пересечения любых двух кружков представляют взаимную информацию для двух связанных переменных (например, I (x; z) желтый и серый). Объединение любых двух кругов - это объединенная энтропия для двух связанных переменных (например, H (x, y) - это все, кроме зеленого). Совместная энтропия H (x, y, z) всех трех переменных - это объединение всех трех окружностей. Он разделен на 7 частей: красный, синий и зеленый - условные энтропии H (x | y, z), H (y | x, z), H (z | x, y) соответственно., желтый, пурпурный и голубой обозначают условную взаимную информацию I (x; z | y), I (y; z | x) и I (x; y | z) соответственно, а серый цвет обозначает многомерная взаимная информация I (x; y; z). Многовариантная взаимная информация - единственная из всех, что может быть отрицательной.

Существует аналогия между базовыми «мерами из информации, которые использует Шеннон.>содержание случайных величин и показатель по множествам. А именно, объединенная энтропия, условная энтропия и взаимная информация могут рассматриваться как мера набора объединения, множества Разница и задают пересечение соответственно (Реза, с. 106–108).

Если мы свяжем существование абстрактных множеств $X ~ {\ displaystyle {\ tilde {X}}}$ ${\ тильда {X}}$ и $Y ~ {\ displaystyle {\ tilde {Y}}}$ ${\ тильда Y}$ к произвольным дискретным случайным величинам X и Y, каким-то образом представляя информацию, переносимую X и Y, соответственно, такое, что:

$μ (X ~ ∩ Y ~) = 0 {\ displaystyle \ mu ({\ tilde {X}} \ cap {\ tilde {Y}}) = 0}$ $\ му ({\ тильда X} \ cap {\ тильда Y}) = 0$ всякий раз, когда X и Y безусловно независимы, и
$X ~ = Y ~ {\ displaystyle {\ tilde {X}} = {\ tilde {Y}}}$ ${\ tilde X} = {\ тильда Y}$ если X и Y таковы, что один из них полностью определяется другим (т. е. биекцией);

где $μ {\ displaystyle \ mu}$ $\ mu$ - знаковая мера над этими множествами, и положим:

H (X) = μ (X ~), ​​H (Y) = μ (Y ~), H (X, Y) = μ (X ~ ∪ Y ~), H (X ∣ Y) = μ (X ~ ∖ Y ~), I ⁡ (X; Y) = μ (X ~ ∩ Y ~); {\ displaystyle {\ begin {align} \ mathrm {H} (X) = \ mu ({\ tilde {X}}), \\\ mathrm {H} (Y) = \ mu ({\ tilde { Y}}), \\\ mathrm {H} (X, Y) = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}}), \\\ mathrm {H} (X \ середина Y) = \ mu ({\ tilde {X}} \ setminus {\ tilde {Y}}), \\\ operatorname {I} (X; Y) = \ mu ({\ tilde {X}} \ cap {\ tilde {Y}}); \ end {align}}}

{\ displaystyle {\ begin {align} \ mathrm {H} (X) = \ mu ({\ tilde {X}}), \\\ mathrm {H} (Y) = \ mu ({\ tilde {Y}) }), \\\ mathrm {H} (X, Y) = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}}), \\\ mathrm {H} (X \ mid Y) = \ mu ({\ tilde {X}} \ setminus {\ tilde {Y}}), \\\ operatorname {I} (X; Y) = \ mu ({\ tilde {X}} \ cap {\ тильда {Y}}); \ конец {выровнено}}}

мы обнаруживаем, что «мера» информационного содержания Шеннона удовлетворяет всем постулатам и основным свойствам формального показатель со знаком по множествам, как обычно показано на информационной диаграмме . Это позволяет записать сумму двух мер:

μ (A) + μ (B) = μ (A ∪ B) + μ (A ∩ B) {\ displaystyle \ mu (A) + \ mu (B) = \ mu (A \ cup B) + \ mu (A \ cap B)}

\ mu (A) + \ mu (B) = \ му (A \ чашка B) + \ mu (A \ cap B)

и аналог теоремы Байеса ( $μ (A) + μ (B ∖ A) знак равно μ (B) + μ (A ∖ B) {\ displaystyle \ mu (A) + \ mu (B \ setminus A) = \ mu (B) + \ mu (A \ setminus B)}$ ${\ displaystyle \ mu (A) + \ mu (B \ setminus A) = \ мю (B) + \ му (A \ setminus B)}$ ) позволяет записать разность двух мер:

μ (A) - μ (B) = μ (A ∖ B) - μ (B ∖ A) {\ displaystyle \ mu (A) - \ mu (B) = \ mu (A \ setminus B) - \ mu (B \ setminus A)}

{\ displaystyle \ mu (A) - \ mu (B) = \ mu (A \ setminus B) - \ mu (B \ setminus A)}

Это может быть удобным мнемоническим устройством в некоторых ситуациях, например

H (X, Y) = H (X) + H (Y ∣ X) μ (X ~ ∪ Y ~) = μ (X ~) + μ (Y ~ ∖ X ~) I ⁡ (X; Y) = ЧАС (Икс) - ЧАС (Икс ∣ Y) μ (Икс ~ ∩ Y ~) = μ (X ~) - μ (X ~ ∖ Y ~) {\ Displaystyle {\ begin {align} \ mathrm {H} (X, Y) = \ mathrm {H} (X) + \ mathrm {H} (Y \ mid X) \ mu ({\ tilde {X}} \ cup {\ tilde {Y}}) = \ mu ({\ tilde {X}}) + \ mu ({\ tilde {Y}} \ setminus {\ tilde {X}}) \\\ имя оператора {I} (X; Y) = \ mathrm {H } (X) - \ mathrm {H} (X \ mid Y) \ mu ({\ tilde {X}} \ cap {\ tilde {Y}}) = \ mu ({\ tilde {X}}) - \ mu ({\ tilde {X}} \ setminus {\ tilde {Y}}) \ end {align}}}

{ \ Displaystyle {\ begin {align} \ mathrm {H} (X, Y) = \ mathrm {H} (X) + \ mathrm {H} (Y \ mid X) \ mu ({\ тильда {X} } \ cup {\ tilde {Y}}) = \ mu ({\ tilde {X}}) + \ mu ({\ tilde {Y}} \ setminus {\ tilde {X}}) \\\ operatorname { I} (X; Y) = \ mathrm {H} (X) - \ mathrm {H} (X \ mid Y) \ mu ({\ tilde {X}} \ cap {\ tilde {Y}}) = \ му ({\ тильда {X}}) - \ му ({\ тильда {X}} \ setminus {\ тильда {Y}}) \ конец {выровнено}}}

Обратите внимание, что меры (математические ожидания логарифма) истинных вероятностей называются «энтропией» и обычно обозначается буквой H, в то время как другие меры часто называют «информацией» или «корреляцией» и обычно обозначаются буквой I. Для упрощения обозначений буква I иногда используется для всех показателей.

Многомерная взаимная информация

Определенные расширения определений основных мер информации Шеннона необходимы для работы с σ-алгеброй, генерируемой наборами, которые будут связаны с три или более произвольных случайных величин. (См. Реза, стр. 106–108 для неформального, но достаточно полного обсуждения.) А именно $H (X, Y, Z, ⋯) {\ displaystyle \ mathrm {H} (X, Y, Z, \ cdots)}$ ${\ displaystyle \ mathrm {H} (X, Y, Z, \ cdots)}$ необходимо определить очевидным образом как энтропию совместного распределения и многомерную взаимную информацию $I ⁡ (X; Y; Z; ⋯) {\ displaystyle \ operatorname {I} (X; Y; Z; \ cdots)}$ ${\ displaystyle \ operatorname {I} (X; Y; Z; \ cdots)}$ определено подходящим образом, так что мы можем установить:

H (X, Y, Z, ⋯) = μ (X ~ ∪ Y ~ ∪ Z ~ ∪ ⋯), I ⁡ (X; Y; Z; ⋯) = μ (X ~ ∩ Y ~ ∩ Z ~ ∩ ⋯); {\ displaystyle {\ begin {align} \ mathrm {H} (X, Y, Z, \ cdots) = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}} \ cup {\ tilde {Z}} \ cup \ cdots), \\\ operatorname {I} (X; Y; Z; \ cdots) = \ mu ({\ tilde {X}} \ cap {\ tilde {Y}} \ cap {\ tilde {Z}} \ cap \ cdots); \ end {align}}}

{\ displaystyle {\ begin {align} \ mathrm {H} (X, Y, Z, \ cdots) = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}) } \ cup {\ tilde {Z}} \ cup \ cdots), \\\ operatorname {I} (X; Y; Z; \ cdots) = \ mu ({\ tilde {X}} \ cap {\ tilde {Y}} \ cap {\ тильда {Z}} \ cap \ cdots); \ end {align}}}

для определения (знаковой) меры по всей σ-алгебре. Не существует единого общепринятого определения многовариантной взаимной информации, но то, которое здесь соответствует мере пересечения множеств, принадлежит Фано (1966: стр. 57-59). Определение рекурсивное. В качестве базового случая взаимная информация одной случайной величины определяется как ее энтропия: $I ⁡ (X) = H (X) {\ displaystyle \ operatorname {I} (X) = \ mathrm {H} ( X)}$ ${\ displaystyle \ operatorname {I} (X) = \ mathrm {H} (X)}$ . Затем для $n ≥ 2 {\ displaystyle n \ geq 2}$ $n \ geq 2$ мы устанавливаем

I ⁡ (X 1; ⋯; X n) = I ⁡ (X 1; ⋯; X n - 1) - Я ⁡ (Икс 1; ⋯; Икс N - 1 ∣ Икс N), {\ displaystyle \ operatorname {I} (X_ {1}; \ cdots; X_ {n}) = \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1}) - \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}),}

{\ displaystyle \ operatorname {I} (X_ {1}; \ cdots; X_ {n}) = \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1}) - \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}),}

где условная взаимная информация определяется как

I ⁡ (X 1; ⋯; X n - 1 ∣ X n) = EX n (I ⁡ (X 1; ⋯; X n - 1) ∣ X n). {\ displaystyle \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}) = \ mathbb {E} _ {X_ {n}} {\ big (} \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1}) \ mid X_ {n} {\ big)}.}

{\ displaystyle \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}) = \ mathbb {E} _ {X_ {n}} {\ big (} \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1}) \ mid X_ {n} {\ big)}.}

Первый шаг в рекурсии дает определение Шеннона $I ⁡ ( Х 1; Х 2) = H (X 1) - H (X 1 ∣ X 2). {\ displaystyle \ operatorname {I} (X_ {1}; X_ {2}) = \ mathrm {H} (X_ {1}) - \ mathrm {H} (X_ {1} \ mid X_ {2}). }$ ${\ displaystyle \ operatorname {I} (X_ {1}; X_ {2}) = \ mathrm {H} (X_ {1}) - \ mathrm {H} (X_ {1} \ mid X_ {2}).}$ Многомерная взаимная информация (такая же, как информация о взаимодействии, но для изменения знака) трех или более случайных величин может быть как отрицательной, так и положительной: пусть X и Y будут двумя независимыми честно подбрасывает монету, и пусть Z будет их исключительным или. Тогда $I ⁡ (X; Y; Z) = - 1 {\ displaystyle \ operatorname {I} (X; Y; Z) = - 1}$ ${\ displaystyle \ operatorname {I} (X; Y; Z) = - 1 }$ бит.

Для трех или более случайных величин возможны многие другие варианты: например, $I ⁡ (X, Y; Z) {\ displaystyle \ operatorname {I} (X, Y; Z)}$ ${\ displa ystyle \ operatorname {I} (X, Y; Z)}$ - это взаимная информация о совместном распределении X и Y относительно Z, и ее можно интерпретировать как $μ ((X ~ ∪ Y ~) ∩ Z ~). {\ displaystyle \ mu (({\ tilde {X}} \ cup {\ tilde {Y}}) \ cap {\ tilde {Z}}).}$ $\ mu (({\ тильда X} \ чашка {\ тильда Y}) \ cap {\ тильда Z}).$ Можно построить много более сложных выражений путь, и все еще имеют значение, например $I ⁡ (X, Y; Z ∣ W), {\ displaystyle \ operatorname {I} (X, Y; Z \ mid W),}$ ${\ displaystyle \ operatorname {I} (X, Y; Z \ mid W),}$ или $H (X, Z ∣ W, Y). {\ displaystyle \ mathrm {H} (X, Z \ mid W, Y).}$ ${\ displaystyle \ mathrm {H} (X, Z \ mid W, Y).}$

Ссылки

Томас М. Ковер и Джой А. Томас. Элементы теории информации, второе издание, 2006 г. Нью-Джерси: Wiley and Sons. ISBN 978-0-471-24195-9.
Фазлолла М. Реза. Введение в теорию информации. Нью-Йорк: McGraw – Hill 1961. Нью-Йорк: Dover 1994. ISBN 0-486-68210-2
Фано, RM (1966), Передача информации: статистическая теория коммуникации, MIT Press, ISBN 978-0-262-56169-3, OCLC 804123877
Р. W. Yeung, "Об энтропии, информационных неравенствах и группах". PS

См. Также