Теория информации и теория меры

редактировать

В этой статье обсуждается, как теория информации (раздел математики, изучающий передачу, обработку и хранение из информации ) относится к теории меры (раздел математики, связанный с интегрированием и вероятностью ).

Содержание
  • 1 Меры в теории информации
  • 2 Энтропия как «мера»
  • 3 Многомерная взаимная информация
  • 4 Ссылки
  • 5 См. Также
Меры в теории информации

Многие концепции теории информации имеют отдельные определения и формулы для непрерывных и дискретных случаев. Например, энтропия H (X) {\ displaystyle \ mathrm {H} (X)}{\ displaystyle \ mathrm {H} (X)} обычно определяется для дискретных случайных величин, тогда как для непрерывных случайных величин связанные Используется концепция дифференциальной энтропии, записываемая как h (X) {\ displaystyle h (X)}h (X) (см. Cover and Thomas, 2006, глава 8). Обе эти концепции являются математическими ожиданиями, но математическое ожидание определяется с помощью интеграла для непрерывного случая и суммы для дискретного случая.

Эти отдельные определения могут быть более тесно связаны с точки зрения теории меры. Для дискретных случайных величин функции вероятности и массы можно рассматривать как функции плотности по отношению к счетной мере. Думая об интеграле и сумме как об интегрировании в пространстве мер, можно использовать единый подход.

Рассмотрим формулу дифференциальной энтропии непрерывной случайной величины X {\ displaystyle X}X с диапазоном R {\ displaystyle \ mathbb {R}}\ mathbb {R} и функция плотности вероятности f (x) {\ displaystyle f (x)}f(x):

h (X) = - ∫ R f (x) журнал ⁡ f (x) dx. {\ displaystyle h (X) = - \ int _ {\ mathbb {R}} f (x) \ log f (x) \, dx.}{\ displaystyle h (X) = - \ int _ {\ mathbb {R}} f (x) \ log f (x) \, dx.}

Обычно это можно интерпретировать как следующее: Riemann– Интеграл Стилтьеса :

час (X) = - ∫ R f (x) журнал ⁡ f (x) d μ (x), {\ displaystyle h (X) = - \ int _ {\ mathbb {R}} f ( x) \ log f (x) \, d \ mu (x),}{\ displaystyle h (X) = - \ int _ {\ mathbb {R}} f (x) \ log f (x) \, d \ mu (x),}

где μ {\ displaystyle \ mu}\ mu - мера Лебега.

Если вместо этого, X {\ displaystyle X}X дискретный, с диапазоном Ω {\ displaystyle \ Omega}\ Omega конечным набором, f {\ displaystyle f}f- функция массы вероятности на Ω {\ displaystyle \ Omega}\ Omega , а ν {\ displaystyle \ nu}\ nu - счетная мера на Ω {\ displaystyle \ Omega}\ Omega , мы можем написать:

H (X) = - ∑ x ∈ Ω f (x) log ⁡ f (x) = - ∫ Ω f (x) журнал ⁡ f (x) d ν (x). {\ displaystyle \ mathrm {H} (X) = - \ sum _ {x \ in \ Omega} f (x) \ log f (x) = - \ int _ {\ Omega} f (x) \ log f ( x) \, d \ nu (x).}{\ displaystyle \ mathrm {H} (X) = - \ sum _ {x \ in \ Omega} f (x) \ log f (x) = - \ int _ {\ Omega} е (х) \ журнал е (х) \, d \ ню (х).}

Интегральное выражение и общая концепция идентичны в непрерывном случае; единственная разница - это используемая мера. В обоих случаях функция плотности вероятности f {\ displaystyle f}fявляется производной Радона – Никодима от вероятностной меры относительно меры против который берется интеграл.

Если P {\ displaystyle P}P- мера вероятности, вызванная X {\ displaystyle X}X , то интеграл также может быть взяты непосредственно относительно P {\ displaystyle P}P:

h (X) = - ∫ X log ⁡ d P d μ d P, {\ displaystyle h (X) = - \ int _ {X} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d} \ mu}} \, dP,}{\ displaystyle h (X) = - \ int _ {X} \ log {\ гидроразрыв {\ mathrm {d} P} {\ mathrm {d} \ mu}} \, dP,}

Если вместо основной меры μ мы берем другую вероятностную меру Q {\ displaystyle Q }Q , мы приходим к расхождению Кульбака – Лейблера : let P {\ displaystyle P}Pи Q {\ displaystyle Q}Q быть вероятностными мерами в одном и том же пространстве. Тогда, если P {\ displaystyle P}Pабсолютно непрерывен по отношению к Q {\ displaystyle Q}Q , записывается P ≪ Q, {\ displaystyle P \ ll Q,}{\ displaystyle P \ ll Q,} производная Радона – Никодима d P d Q {\ displaystyle {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}}}{\ displaystyle { \ frac {\ mathrm {d} P} {\ mathrm {d} Q}}} существует, и расхождение Кульбака – Лейблера может быть выражено в его полной общности:

D KL (P ‖ Q) = ∫ supp ⁡ P d P d Q журнал ⁡ d п d Q d Q знак равно ∫ supp ⁡ п журнал ⁡ d п d Q d P, {\ displaystyle D _ {\ operatorname {KL}} (P \ | Q) = \ int _ {\ operatorname {supp} P } {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \, dQ = \ int _ {\ operatorname {supp} P} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \, dP,}{\ displaystyle D _ {\ operatorname {KL}} (P \ | Q) = \ int _ {\ operatorname {supp} P} {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d } Q}} \, dQ = \ int _ {\ operatorname {supp} P} \ log {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \, dP,}

где интеграл проходит по опоре из п. {\ displaystyle P.}P. Обратите внимание, что мы опустили отрицательный знак: расхождение Кульбака – Лейблера всегда неотрицательно из-за неравенства Гиббса.

Энтропия как «мера»
Диаграмма Венна для различных информационных мер, связанных с коррелированными переменными X и Y. Площадь, содержащаяся в обоих кругах, является совместной энтропией H (X, Y). Круг слева (красный и голубой) - это индивидуальная энтропия H (X), красный - условная энтропия H (X | Y). Круг справа (синий и голубой) - это H (Y), а синий - H (Y | X). Голубой - это взаимная информация I (X; Y). диаграмма Венна теоретико-информационных мер для трех переменных x, y и z. Каждый кружок представляет индивидуальную энтропию : H (x) - нижний левый кружок, H (y) - нижний правый, а H (z) - верхний кружок. Пересечения любых двух кружков представляют взаимную информацию для двух связанных переменных (например, I (x; z) желтый и серый). Объединение любых двух кругов - это объединенная энтропия для двух связанных переменных (например, H (x, y) - это все, кроме зеленого). Совместная энтропия H (x, y, z) всех трех переменных - это объединение всех трех окружностей. Он разделен на 7 частей: красный, синий и зеленый - условные энтропии H (x | y, z), H (y | x, z), H (z | x, y) соответственно., желтый, пурпурный и голубой обозначают условную взаимную информацию I (x; z | y), I (y; z | x) и I (x; y | z) соответственно, а серый цвет обозначает многомерная взаимная информация I (x; y; z). Многовариантная взаимная информация - единственная из всех, что может быть отрицательной.

Существует аналогия между базовыми «мерами из информации, которые использует Шеннон.>содержание случайных величин и показатель по множествам. А именно, объединенная энтропия, условная энтропия и взаимная информация могут рассматриваться как мера набора объединения, множества Разница и задают пересечение соответственно (Реза, с. 106–108).

Если мы свяжем существование абстрактных множеств X ~ {\ displaystyle {\ tilde {X}}}{\ тильда {X}} и Y ~ {\ displaystyle {\ tilde {Y}}}{\ тильда Y} к произвольным дискретным случайным величинам X и Y, каким-то образом представляя информацию, переносимую X и Y, соответственно, такое, что:

  • μ (X ~ ∩ Y ~) = 0 {\ displaystyle \ mu ({\ tilde {X}} \ cap {\ tilde {Y}}) = 0}\ му ({\ тильда X} \ cap {\ тильда Y}) = 0 всякий раз, когда X и Y безусловно независимы, и
  • X ~ = Y ~ {\ displaystyle {\ tilde {X}} = {\ tilde {Y}}}{\ tilde X} = {\ тильда Y} если X и Y таковы, что один из них полностью определяется другим (т. е. биекцией);

где μ {\ displaystyle \ mu}\ mu - знаковая мера над этими множествами, и положим:

H (X) = μ (X ~), ​​H (Y) = μ (Y ~), H (X, Y) = μ (X ~ ∪ Y ~), H (X ∣ Y) = μ (X ~ ∖ Y ~), I ⁡ (X; Y) = μ (X ~ ∩ Y ~); {\ displaystyle {\ begin {align} \ mathrm {H} (X) = \ mu ({\ tilde {X}}), \\\ mathrm {H} (Y) = \ mu ({\ tilde { Y}}), \\\ mathrm {H} (X, Y) = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}}), \\\ mathrm {H} (X \ середина Y) = \ mu ({\ tilde {X}} \ setminus {\ tilde {Y}}), \\\ operatorname {I} (X; Y) = \ mu ({\ tilde {X}} \ cap {\ tilde {Y}}); \ end {align}}}{\ displaystyle {\ begin {align} \ mathrm {H} (X) = \ mu ({\ tilde {X}}), \\\ mathrm {H} (Y) = \ mu ({\ tilde {Y}) }), \\\ mathrm {H} (X, Y) = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}}), \\\ mathrm {H} (X \ mid Y) = \ mu ({\ tilde {X}} \ setminus {\ tilde {Y}}), \\\ operatorname {I} (X; Y) = \ mu ({\ tilde {X}} \ cap {\ тильда {Y}}); \ конец {выровнено}}}

мы обнаруживаем, что «мера» информационного содержания Шеннона удовлетворяет всем постулатам и основным свойствам формального показатель со знаком по множествам, как обычно показано на информационной диаграмме . Это позволяет записать сумму двух мер:

μ (A) + μ (B) = μ (A ∪ B) + μ (A ∩ B) {\ displaystyle \ mu (A) + \ mu (B) = \ mu (A \ cup B) + \ mu (A \ cap B)}\ mu (A) + \ mu (B) = \ му (A \ чашка B) + \ mu (A \ cap B)

и аналог теоремы Байеса (μ (A) + μ (B ∖ A) знак равно μ (B) + μ (A ∖ B) {\ displaystyle \ mu (A) + \ mu (B \ setminus A) = \ mu (B) + \ mu (A \ setminus B)}{\ displaystyle \ mu (A) + \ mu (B \ setminus A) = \ мю (B) + \ му (A \ setminus B)} ) позволяет записать разность двух мер:

μ (A) - μ (B) = μ (A ∖ B) - μ (B ∖ A) {\ displaystyle \ mu (A) - \ mu (B) = \ mu (A \ setminus B) - \ mu (B \ setminus A)}{\ displaystyle \ mu (A) - \ mu (B) = \ mu (A \ setminus B) - \ mu (B \ setminus A)}

Это может быть удобным мнемоническим устройством в некоторых ситуациях, например

H (X, Y) = H (X) + H (Y ∣ X) μ (X ~ ∪ Y ~) = μ (X ~) + μ (Y ~ ∖ X ~) I ⁡ (X; Y) = ЧАС (Икс) - ЧАС (Икс ∣ Y) μ (Икс ~ ∩ Y ~) = μ (X ~) - μ (X ~ ∖ Y ~) {\ Displaystyle {\ begin {align} \ mathrm {H} (X, Y) = \ mathrm {H} (X) + \ mathrm {H} (Y \ mid X) \ mu ({\ tilde {X}} \ cup {\ tilde {Y}}) = \ mu ({\ tilde {X}}) + \ mu ({\ tilde {Y}} \ setminus {\ tilde {X}}) \\\ имя оператора {I} (X; Y) = \ mathrm {H } (X) - \ mathrm {H} (X \ mid Y) \ mu ({\ tilde {X}} \ cap {\ tilde {Y}}) = \ mu ({\ tilde {X}}) - \ mu ({\ tilde {X}} \ setminus {\ tilde {Y}}) \ end {align}}}{ \ Displaystyle {\ begin {align} \ mathrm {H} (X, Y) = \ mathrm {H} (X) + \ mathrm {H} (Y \ mid X) \ mu ({\ тильда {X} } \ cup {\ tilde {Y}}) = \ mu ({\ tilde {X}}) + \ mu ({\ tilde {Y}} \ setminus {\ tilde {X}}) \\\ operatorname { I} (X; Y) = \ mathrm {H} (X) - \ mathrm {H} (X \ mid Y) \ mu ({\ tilde {X}} \ cap {\ tilde {Y}}) = \ му ({\ тильда {X}}) - \ му ({\ тильда {X}} \ setminus {\ тильда {Y}}) \ конец {выровнено}}}

Обратите внимание, что меры (математические ожидания логарифма) истинных вероятностей называются «энтропией» и обычно обозначается буквой H, в то время как другие меры часто называют «информацией» или «корреляцией» и обычно обозначаются буквой I. Для упрощения обозначений буква I иногда используется для всех показателей.

Многомерная взаимная информация

Определенные расширения определений основных мер информации Шеннона необходимы для работы с σ-алгеброй, генерируемой наборами, которые будут связаны с три или более произвольных случайных величин. (См. Реза, стр. 106–108 для неформального, но достаточно полного обсуждения.) А именно H (X, Y, Z, ⋯) {\ displaystyle \ mathrm {H} (X, Y, Z, \ cdots)}{\ displaystyle \ mathrm {H} (X, Y, Z, \ cdots)} необходимо определить очевидным образом как энтропию совместного распределения и многомерную взаимную информацию I ⁡ (X; Y; Z; ⋯) {\ displaystyle \ operatorname {I} (X; Y; Z; \ cdots)}{\ displaystyle \ operatorname {I} (X; Y; Z; \ cdots)} определено подходящим образом, так что мы можем установить:

H (X, Y, Z, ⋯) = μ (X ~ ∪ Y ~ ∪ Z ~ ∪ ⋯), I ⁡ (X; Y; Z; ⋯) = μ (X ~ ∩ Y ~ ∩ Z ~ ∩ ⋯); {\ displaystyle {\ begin {align} \ mathrm {H} (X, Y, Z, \ cdots) = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}} \ cup {\ tilde {Z}} \ cup \ cdots), \\\ operatorname {I} (X; Y; Z; \ cdots) = \ mu ({\ tilde {X}} \ cap {\ tilde {Y}} \ cap {\ tilde {Z}} \ cap \ cdots); \ end {align}}}{\ displaystyle {\ begin {align} \ mathrm {H} (X, Y, Z, \ cdots) = \ mu ({\ tilde {X}} \ cup {\ tilde {Y}) } \ cup {\ tilde {Z}} \ cup \ cdots), \\\ operatorname {I} (X; Y; Z; \ cdots) = \ mu ({\ tilde {X}} \ cap {\ tilde {Y}} \ cap {\ тильда {Z}} \ cap \ cdots); \ end {align}}}

для определения (знаковой) меры по всей σ-алгебре. Не существует единого общепринятого определения многовариантной взаимной информации, но то, которое здесь соответствует мере пересечения множеств, принадлежит Фано (1966: стр. 57-59). Определение рекурсивное. В качестве базового случая взаимная информация одной случайной величины определяется как ее энтропия: I ⁡ (X) = H (X) {\ displaystyle \ operatorname {I} (X) = \ mathrm {H} ( X)}{\ displaystyle \ operatorname {I} (X) = \ mathrm {H} (X)} . Затем для n ≥ 2 {\ displaystyle n \ geq 2}n \ geq 2 мы устанавливаем

I ⁡ (X 1; ⋯; X n) = I ⁡ (X 1; ⋯; X n - 1) - Я ⁡ (Икс 1; ⋯; Икс N - 1 ∣ Икс N), {\ displaystyle \ operatorname {I} (X_ {1}; \ cdots; X_ {n}) = \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1}) - \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}),}{\ displaystyle \ operatorname {I} (X_ {1}; \ cdots; X_ {n}) = \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1}) - \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}),}

где условная взаимная информация определяется как

I ⁡ (X 1; ⋯; X n - 1 ∣ X n) = EX n (I ⁡ (X 1; ⋯; X n - 1) ∣ X n). {\ displaystyle \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}) = \ mathbb {E} _ {X_ {n}} {\ big (} \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1}) \ mid X_ {n} {\ big)}.}{\ displaystyle \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1} \ mid X_ {n}) = \ mathbb {E} _ {X_ {n}} {\ big (} \ operatorname {I} (X_ {1}; \ cdots; X_ {n-1}) \ mid X_ {n} {\ big)}.}

Первый шаг в рекурсии дает определение Шеннона I ⁡ ( Х 1; Х 2) = H (X 1) - H (X 1 ∣ X 2). {\ displaystyle \ operatorname {I} (X_ {1}; X_ {2}) = \ mathrm {H} (X_ {1}) - \ mathrm {H} (X_ {1} \ mid X_ {2}). }{\ displaystyle \ operatorname {I} (X_ {1}; X_ {2}) = \ mathrm {H} (X_ {1}) - \ mathrm {H} (X_ {1} \ mid X_ {2}).} Многомерная взаимная информация (такая же, как информация о взаимодействии, но для изменения знака) трех или более случайных величин может быть как отрицательной, так и положительной: пусть X и Y будут двумя независимыми честно подбрасывает монету, и пусть Z будет их исключительным или. Тогда I ⁡ (X; Y; Z) = - 1 {\ displaystyle \ operatorname {I} (X; Y; Z) = - 1}{\ displaystyle \ operatorname {I} (X; Y; Z) = - 1 } бит.

Для трех или более случайных величин возможны многие другие варианты: например, I ⁡ (X, Y; Z) {\ displaystyle \ operatorname {I} (X, Y; Z)}{\ displa ystyle \ operatorname {I} (X, Y; Z)} - это взаимная информация о совместном распределении X и Y относительно Z, и ее можно интерпретировать как μ ((X ~ ∪ Y ~) ∩ Z ~). {\ displaystyle \ mu (({\ tilde {X}} \ cup {\ tilde {Y}}) \ cap {\ tilde {Z}}).}\ mu (({\ тильда X} \ чашка {\ тильда Y}) \ cap {\ тильда Z}). Можно построить много более сложных выражений путь, и все еще имеют значение, например I ⁡ (X, Y; Z ∣ W), {\ displaystyle \ operatorname {I} (X, Y; Z \ mid W),}{\ displaystyle \ operatorname {I} (X, Y; Z \ mid W),} или H (X, Z ∣ W, Y). {\ displaystyle \ mathrm {H} (X, Z \ mid W, Y).}{\ displaystyle \ mathrm {H} (X, Z \ mid W, Y).}

Ссылки
См. Также
Последняя правка сделана 2021-05-24 14:45:57
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте