Взаимная информация

редактировать

Теория информации

Энтропия Дифференциальная энтропия Условная энтропия Совместная энтропия Взаимная информация Условная взаимная информация Относительная энтропия Скорость энтропии Предельная плотность дискретных точек Теория информации с конечной длиной блока
Асимптотическое свойство равнораспределения Теория скорости-искажения
Теорема кодирования источника Шеннона Емкость канала Теорема кодирования с шумом канала Теорема Шеннона – Хартли.
v т е

Диаграмма Венна, показывающая аддитивные и вычитающие отношения различных информационных показателей, связанных с коррелированными переменными и. Площадь, содержащаяся в обоих кругах, является совместной энтропией. Круг слева (красный и фиолетовый) - это индивидуальная энтропия, а красный - условная энтропия. Круг справа (синий и фиолетовый) - это синее существо. Фиолетовый - взаимная информация.

{\ displaystyle X}

Икс

{\ displaystyle Y}

Y

{\ Displaystyle \ mathrm {H} (X, Y)}

{\ Displaystyle \ mathrm {H} (X, Y)}

{\ Displaystyle \ mathrm {H} (X)}

{\ Displaystyle \ mathrm {H} (X)}

{\ Displaystyle \ mathrm {H} (X \ середина Y)}

{\ Displaystyle \ mathrm {H} (X \ середина Y)}

{\ Displaystyle \ mathrm {H} (Y)}

{\ Displaystyle \ mathrm {H} (Y)}

{\ displaystyle \ mathrm {H} (Y \ mid X)}

{\ displaystyle \ mathrm {H} (Y \ mid X)}

{\ displaystyle \ operatorname {I} (X; Y)}

\ operatorname {I} (X; Y)

В теории вероятностей и теории информации, то взаимная информация ( MI) два случайных величин является мерой взаимной зависимости между двумя переменными. Более конкретно, оно квантифицирует « количество информации » (в единицах, такие как Shannons ( биты ), нац или Hartleys ), полученный около одной случайной величины, наблюдая за другую случайную величину. Концепция взаимной информации тесно связана с концепцией энтропии случайной величины, фундаментальным понятием в теории информации, которое количественно определяет ожидаемое «количество информации», содержащееся в случайной величине.

Не ограничиваясь действительными случайными величинами и линейной зависимостью, такой как коэффициент корреляции, MI является более общим и определяет, насколько совместное распределение пары отличается от произведения предельных распределений и. MI является ожидаемым значением в точечно взаимной информации (PMI). ${\ displaystyle (X, Y)}$ $(X, Y)$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$

Величина была определена и проанализирована Клодом Шенноном в его знаменательной статье « Математическая теория коммуникации », хотя он не называл это «взаимной информацией». Этот термин был введен позже Робертом Фано. Взаимная информация также известна как получение информации.

СОДЕРЖАНИЕ

1 Определение
2 В терминах PMF для дискретных распределений
3 С точки зрения PDF для непрерывных распределений
4 Мотивация
5 Отношение к другим величинам
- 5.1 Неотрицательность
- 5.2 Симметрия
- 5.3 Связь с условной и совместной энтропией
- 5.4 Связь с расхождением Кульбака – Лейблера
- 5.5 Байесовская оценка взаимной информации
- 5.6 Допущения независимости
6 вариаций
- 6.1 Метрическая система
- 6.2 Условная взаимная информация
- 6.3 Информация о взаимодействии
  - 6.3.1 Многомерная статистическая независимость
  - 6.3.2 Приложения
- 6.4 Направленная информация
- 6.5 Нормализованные варианты
- 6.6 Взвешенные варианты
- 6.7 Скорректированная взаимная информация
- 6.8 Абсолютная взаимная информация
- 6.9 Линейная корреляция
- 6.10 Для дискретных данных
7 приложений
8 См. Также
9 Примечания
10 Ссылки

Определение

Позвольте быть пара случайных величин со значениями в пространстве. Если их совместное распределение равно и предельные распределения равны и, взаимная информация определяется как ${\ displaystyle (X, Y)}$ $(X, Y)$ ${\ Displaystyle {\ mathcal {X}} \ times {\ mathcal {Y}}}$ ${\ mathcal {X}} \ times {\ mathcal {Y}}$ ${\ Displaystyle P _ {(X, Y)}}$ ${\ Displaystyle P _ {(X, Y)}}$ ${\ Displaystyle P_ {X}}$ $P_X$ ${\ displaystyle P_ {Y}}$ ${\ displaystyle P_ {Y}}$

${\ Displaystyle I (X; Y) = D _ {\ mathrm {KL}} (P _ {(X, Y)} \ | P_ {X} \ otimes P_ {Y})}$ ${\ Displaystyle I (X; Y) = D _ {\ mathrm {KL}} (P _ {(X, Y)} \ | P_ {X} \ otimes P_ {Y})}$

где - расходимость Кульбака – Лейблера. ${\ Displaystyle D _ {\ mathrm {KL}}}$ $D _ {{{\ mathrm {KL}}}}$

Обратите внимание, что в собственности дивергенции Кульбака-Лейблера, что равно нулю именно тогда, когда совместное распределение совпадает с произведением маргиналов, т.е. когда и являются независимыми (и, следовательно, наблюдения ничего не говорит вам о). В общем случае неотрицательно, это мера стоимости кодирования как пары независимых случайных величин, хотя на самом деле это не так. ${\ Displaystyle I (X; Y)}$ $Я (X; Y)$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ Displaystyle I (X; Y)}$ $Я (X; Y)$ ${\ displaystyle (X, Y)}$ $(X, Y)$

В терминах PMF для дискретных распределений

Взаимная информация двух совместно дискретных случайных величин и вычисляется как двойная сумма: ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$

{\ displaystyle \ operatorname {I} (X; Y) = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}}} {p _ {(X, Y)} (x, y) \ log \ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ {Y} (y)}} \Правильно)},}

{\ displaystyle \ operatorname {I} (X; Y) = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}}} {p _ {(X, Y)} (x, y) \ log \ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ {Y} (y)}} \Правильно)},}

( Уравнение 1)

где есть совместная вероятность массовый функция из и, и, и являются предельными вероятностями массовых функций и соответственно. ${\ displaystyle p _ {(X, Y)}}$ ${\ displaystyle p _ {(X, Y)}}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle p_ {X}}$ $p_ {X}$ ${\ displaystyle p_ {Y}}$ $p_Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$

С точки зрения PDF-файлов для непрерывных распределений

В случае совместно непрерывных случайных величин двойная сумма заменяется двойным интегралом :

{\ displaystyle \ operatorname {I} (X; Y) = \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} {p _ {(X, Y)} (x, y) \ log {\ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ {Y} (y)}} \ right)}} \; dx \, dy,}

{\ displaystyle \ operatorname {I} (X; Y) = \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} {p _ {(X, Y)} (x, y) \ log {\ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ {Y} (y)}} \ right)}} \; dx \, dy,}

( Уравнение 2)

где теперь совместная вероятность плотность функция и, и, и являются функциями маргинальных плотностей вероятности и соответственно. ${\ displaystyle p _ {(X, Y)}}$ ${\ displaystyle p _ {(X, Y)}}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle p_ {X}}$ $p_ {X}$ ${\ displaystyle p_ {Y}}$ $p_Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$

Если используется логическая база 2, единицами взаимной информации являются биты.

Мотивация

Наглядно, взаимной информации измеряет информацию, и доля: Он измеряет, сколько зная одну из этих переменных уменьшает неопределенность относительно другой. Например, если и независимы, то знание не дает никакой информации о и наоборот, поэтому их взаимная информация равна нулю. С другой стороны, if является детерминированной функцией и является детерминированной функцией, тогда вся информация, передаваемая с помощью, совместно используется: знание определяет ценность и наоборот. В результате, в этом случае взаимной информации является таким же, как неопределенность, содержащейся в (или) один, а именно энтропии из (или). Более того, эта взаимная информация совпадает с энтропией и энтропией. (Очень частный случай, когда и являются одной и той же случайной величиной.) ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$

Взаимная информация является мерой присущей зависимости, выраженной в совместном распределении по и по отношению к предельному распределению и при предположении о независимости. Таким образом, взаимная информация измеряет зависимость в следующем смысле: тогда и только тогда, когда и являются независимыми случайными величинами. Это легко увидеть в одном направлении: если и независимы, то, следовательно: ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle \ operatorname {I} (X; Y) = 0}$ ${\ displaystyle \ operatorname {I} (X; Y) = 0}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle p _ {(X, Y)} (x, y) = p_ {X} (x) \ cdot p_ {Y} (y)}$ ${\ displaystyle p _ {(X, Y)} (x, y) = p_ {X} (x) \ cdot p_ {Y} (y)}$

{\ displaystyle \ log {\ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ {Y} (y)}} \ right)} = \ log 1 = 0.}

{\ displaystyle \ log {\ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ {Y} (y)}} \ right)} = \ log 1 = 0.}

Более того, взаимная информация неотрицательна (т.е. см. Ниже) и симметрична (т.е. см. Ниже). ${\ Displaystyle \ OperatorName {I} (X; Y) \ geq 0}$ ${\ Displaystyle \ OperatorName {I} (X; Y) \ geq 0}$ ${\ Displaystyle \ OperatorName {I} (X; Y) = \ OperatorName {I} (Y; X)}$ ${\ Displaystyle \ OperatorName {I} (X; Y) = \ OperatorName {I} (Y; X)}$

Отношение к другим величинам

Неотрицательность

Используя неравенство Дженсена об определении взаимной информации, мы можем показать, что она неотрицательна, т. Е. ${\ displaystyle \ operatorname {I} (X; Y)}$ $\ operatorname {I} (X; Y)$

{\ Displaystyle \ OperatorName {I} (X; Y) \ geq 0}

{\ Displaystyle \ OperatorName {I} (X; Y) \ geq 0}

Симметрия

{\ Displaystyle \ OperatorName {I} (X; Y) = \ OperatorName {I} (Y; X)}

{\ Displaystyle \ OperatorName {I} (X; Y) = \ OperatorName {I} (Y; X)}

Отношение к условной и совместной энтропии

Взаимная информация может быть эквивалентно выражена как:

{\ displaystyle {\ begin {align} \ operatorname {I} (X; Y) amp; {} \ Equiv \ mathrm {H} (X) - \ mathrm {H} (X \ mid Y) \\ amp; {} \ Equiv \ mathrm {H} (Y) - \ mathrm {H} (Y \ mid X) \\ amp; {} \ Equiv \ mathrm {H} (X) + \ mathrm {H} (Y) - \ mathrm {H } (X, Y) \\ amp; {} \ Equiv \ mathrm {H} (X, Y) - \ mathrm {H} (X \ mid Y) - \ mathrm {H} (Y \ mid X) \ end { выровнено}}}

{\ displaystyle {\ begin {align} \ operatorname {I} (X; Y) amp; {} \ Equiv \ mathrm {H} (X) - \ mathrm {H} (X \ mid Y) \\ amp; {} \ Equiv \ mathrm {H} (Y) - \ mathrm {H} (Y \ mid X) \\ amp; {} \ Equiv \ mathrm {H} (X) + \ mathrm {H} (Y) - \ mathrm {H } (X, Y) \\ amp; {} \ Equiv \ mathrm {H} (X, Y) - \ mathrm {H} (X \ mid Y) - \ mathrm {H} (Y \ mid X) \ end { выровнено}}}

где и являются предельные энтропии, и являются условные энтропии, и является совместной энтропии из и. ${\ Displaystyle \ mathrm {H} (X)}$ ${\ Displaystyle \ mathrm {H} (X)}$ ${\ Displaystyle \ mathrm {H} (Y)}$ ${\ Displaystyle \ mathrm {H} (Y)}$ ${\ Displaystyle \ mathrm {H} (X \ середина Y)}$ ${\ Displaystyle \ mathrm {H} (X \ середина Y)}$ ${\ displaystyle \ mathrm {H} (Y \ mid X)}$ ${\ displaystyle \ mathrm {H} (Y \ mid X)}$ ${\ Displaystyle \ mathrm {H} (X, Y)}$ ${\ Displaystyle \ mathrm {H} (X, Y)}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$

Обратите внимание на аналогию с объединением, различием и пересечением двух множеств: в этом отношении все приведенные выше формулы очевидны из диаграммы Венна, приведенной в начале статьи.

С точки зрения канала связи, в котором выход является зашумленной версией входа, эти отношения суммированы на рисунке: ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$

Связь между теоретическими величинами информации

Поскольку не отрицательно, следовательно,. Здесь мы даем подробный вывод для случая совместно дискретных случайных величин: ${\ displaystyle \ operatorname {I} (X; Y)}$ $\ operatorname {I} (X; Y)$ ${\ Displaystyle \ mathrm {H} (X) \ geq \ mathrm {H} (X \ mid Y)}$ ${\ Displaystyle \ mathrm {H} (X) \ geq \ mathrm {H} (X \ mid Y)}$ ${\ Displaystyle \ OperatorName {I} (X; Y) = \ mathrm {H} (Y) - \ mathrm {H} (Y \ mid X)}$ ${\ Displaystyle \ OperatorName {I} (X; Y) = \ mathrm {H} (Y) - \ mathrm {H} (Y \ mid X)}$

{\ displaystyle {\ begin {align} \ operatorname {I} (X; Y) amp; {} = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p_ {(X, Y)} (x, y) \ log {\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) p_ {Y} (y)}} \ \ amp; {} = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p _ {(X, Y)} (x, y) \ log {\ frac { p _ {(X, Y)} (x, y)} {p_ {X} (x)}} - \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}} } p _ {(X, Y)} (x, y) \ log p_ {Y} (y) \\ amp; {} = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p_ {X} (x) p_ {Y \ mid X = x} (y) \ log p_ {Y \ mid X = x} (y) - \ sum _ {x \ in {\ mathcal {\ mathcal { X}}, y \ in {\ mathcal {Y}}} p _ {(X, Y)} (x, y) \ log p_ {Y} (y) \\ amp; {} = \ sum _ {x \ in {\ mathcal {X}}} p_ {X} (x) \ left (\ sum _ {y \ in {\ mathcal {Y}}} p_ {Y \ mid X = x} (y) \ log p_ {Y) \ mid X = x} (y) \ right) - \ sum _ {y \ in {\ mathcal {Y}}} \ left (\ sum _ {x} p _ {(X, Y)} (x, y) \ right) \ log p_ {Y} (y) \\ amp; {} = - \ sum _ {x \ in {\ mathcal {X}}} p (x) \ mathrm {H} (Y \ mid X = x) - \ sum _ {y \ in {\ mathcal {Y}}} p_ {Y} (y) \ log p_ {Y} (y) \\ amp; {} = - \ mathrm {H} (Y \ mid X) + \ mathrm {H} (Y) \\ amp; {} = \ mathrm {H} (Y) - \ mathrm {H} (Y \ mid X). \\\ конец {выровнено}}}

{\ displaystyle {\ begin {align} \ operatorname {I} (X; Y) amp; {} = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p_ {(X, Y)} (x, y) \ log {\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) p_ {Y} (y)}} \ \ amp; {} = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p _ {(X, Y)} (x, y) \ log {\ frac { p _ {(X, Y)} (x, y)} {p_ {X} (x)}} - \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}} } p _ {(X, Y)} (x, y) \ log p_ {Y} (y) \\ amp; {} = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p_ {X} (x) p_ {Y \ mid X = x} (y) \ log p_ {Y \ mid X = x} (y) - \ sum _ {x \ in {\ mathcal {\ mathcal { X}}, y \ in {\ mathcal {Y}}} p _ {(X, Y)} (x, y) \ log p_ {Y} (y) \\ amp; {} = \ sum _ {x \ in {\ mathcal {X}}} p_ {X} (x) \ left (\ sum _ {y \ in {\ mathcal {Y}}} p_ {Y \ mid X = x} (y) \ log p_ {Y) \ mid X = x} (y) \ right) - \ sum _ {y \ in {\ mathcal {Y}}} \ left (\ sum _ {x} p _ {(X, Y)} (x, y) \ right) \ log p_ {Y} (y) \\ amp; {} = - \ sum _ {x \ in {\ mathcal {X}}} p (x) \ mathrm {H} (Y \ mid X = x) - \ sum _ {y \ in {\ mathcal {Y}}} p_ {Y} (y) \ log p_ {Y} (y) \\ amp; {} = - \ mathrm {H} (Y \ mid X) + \ mathrm {H} (Y) \\ amp; {} = \ mathrm {H} (Y) - \ mathrm {H} (Y \ mid X). \\\ конец {выровнено}}}

Доказательства остальных тождеств, приведенных выше, аналогичны. Доказательство общего случая (не только дискретного) аналогично, с интегралами вместо сумм.

Наглядно, если энтропия рассматривается как мера неопределенности относительно случайной величины, то есть мера того, что вовсе не говорит о. Это «величина неопределенности, остающаяся примерно после того, как известна», и, таким образом, правая часть второго из этих равенств может быть прочитана как «величина неопределенности, минус величина неопределенности, которая остается после того, как известна», что эквивалентно «степени неопределенности, устраняемой знанием ». Это подтверждает интуитивное значение взаимной информации как количества информации (то есть уменьшения неопределенности), которую знание одной переменной дает о другой. ${\ Displaystyle \ mathrm {H} (Y)}$ ${\ Displaystyle \ mathrm {H} (Y)}$ ${\ displaystyle \ mathrm {H} (Y \ mid X)}$ ${\ displaystyle \ mathrm {H} (Y \ mid X)}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$

Обратите внимание, что в дискретном случае и поэтому. Таким образом, можно сформулировать основной принцип, согласно которому переменная содержит, по крайней мере, столько же информации о себе, сколько может предоставить любая другая переменная. ${\ Displaystyle \ mathrm {H} (Y \ середина Y) = 0}$ ${\ Displaystyle \ mathrm {H} (Y \ середина Y) = 0}$ ${\ Displaystyle \ mathrm {H} (Y) = \ OperatorName {I} (Y; Y)}$ ${\ Displaystyle \ mathrm {H} (Y) = \ OperatorName {I} (Y; Y)}$ ${\ Displaystyle \ OperatorName {I} (Y; Y) \ geq \ OperatorName {I} (X; Y)}$ ${\ Displaystyle \ OperatorName {I} (Y; Y) \ geq \ OperatorName {I} (X; Y)}$

Связь с расходимостью Кульбака – Лейблера

Для совместного дискретного или непрерывного совместно пара, взаимная информация является Кульбак-Либлер дивергенция от произведения маргинальных распределений,, из совместного распределения, то есть, ${\ displaystyle (X, Y)}$ $(X, Y)$ ${\ displaystyle p_ {X} \ cdot p_ {Y}}$ ${\ displaystyle p_ {X} \ cdot p_ {Y}}$ ${\ displaystyle p _ {(X, Y)}}$ ${\ displaystyle p _ {(X, Y)}}$

${\ displaystyle \ operatorname {I} (X; Y) = D _ {\ text {KL}} \ left (p _ {(X, Y)} \ parallel p_ {X} p_ {Y} \ right)}$ ${\ displaystyle \ operatorname {I} (X; Y) = D _ {\ text {KL}} \ left (p _ {(X, Y)} \ parallel p_ {X} p_ {Y} \ right)}$

Кроме того, пусть будет условной функцией массы или плотности. Тогда у нас есть тождество ${\ displaystyle p_ {X \ mid Y = y} (x) = p _ {(X, Y)} (x, y) / p_ {Y} (y)}$ ${\ displaystyle p_ {X \ mid Y = y} (x) = p _ {(X, Y)} (x, y) / p_ {Y} (y)}$

${\ displaystyle \ operatorname {I} (X; Y) = \ mathbb {E} _ {Y} \ left [D _ {\ text {KL}} \! \ left (p_ {X \ mid Y} \ parallel p_ { X} \ right) \ right]}$ ${\ displaystyle \ operatorname {I} (X; Y) = \ mathbb {E} _ {Y} \ left [D _ {\ text {KL}} \! \ left (p_ {X \ mid Y} \ parallel p_ { X} \ right) \ right]}$

Доказательство для совместно дискретных случайных величин выглядит следующим образом:

{\ displaystyle {\ begin {align} \ operatorname {I} (X; Y) amp; = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}} } {p _ {(X, Y)} (x, y) \ log \ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ { Y} (y)}} \ right)} \\ amp; = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}}} p_ {X \ mid Y = y} (x) p_ {Y} (y) \ log {\ frac {p_ {X \ mid Y = y} (x) p_ {Y} (y)} {p_ {X} (x) p_ { Y} (y)}} \\ amp; = \ sum _ {y \ in {\ mathcal {Y}}} p_ {Y} (y) \ sum _ {x \ in {\ mathcal {X}}} p_ { X \ mid Y = y} (x) \ log {\ frac {p_ {X \ mid Y = y} (x)} {p_ {X} (x)}} \\ amp; = \ sum _ {y \ in {\ mathcal {Y}}} p_ {Y} (y) \; D _ {\ text {KL}} \! \ left (p_ {X \ mid Y = y} \ parallel p_ {X} \ right) \\ amp; = \ mathbb {E} _ {Y} \ left [D _ {\ text {KL}} \! \ left (p_ {X \ mid Y} \ parallel p_ {X} \ right) \ right]. \ end { выровнено}}}

{\ displaystyle {\ begin {align} \ operatorname {I} (X; Y) amp; = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}} } {p _ {(X, Y)} (x, y) \ log \ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ { Y} (y)}} \ right)} \\ amp; = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}}} p_ {X \ mid Y = y} (x) p_ {Y} (y) \ log {\ frac {p_ {X \ mid Y = y} (x) p_ {Y} (y)} {p_ {X} (x) p_ { Y} (y)}} \\ amp; = \ sum _ {y \ in {\ mathcal {Y}}} p_ {Y} (y) \ sum _ {x \ in {\ mathcal {X}}} p_ { X \ mid Y = y} (x) \ log {\ frac {p_ {X \ mid Y = y} (x)} {p_ {X} (x)}} \\ amp; = \ sum _ {y \ in {\ mathcal {Y}}} p_ {Y} (y) \; D _ {\ text {KL}} \! \ left (p_ {X \ mid Y = y} \ parallel p_ {X} \ right) \\ amp; = \ mathbb {E} _ {Y} \ left [D _ {\ text {KL}} \! \ left (p_ {X \ mid Y} \ parallel p_ {X} \ right) \ right]. \ end { выровнено}}}

Аналогичным образом это тождество может быть установлено для совместно непрерывных случайных величин.

Обратите внимание, что здесь дивергенция Кульбака – Лейблера включает интегрирование только по значениям случайной величины, а выражение по- прежнему обозначает случайную величину, поскольку оно является случайным. Таким образом, взаимная информация также может быть понята как ожидание в Кульбаке-Лейблере расходимости однофакторного распределения из от условного распределения в дали: чем больше разные распределения и в среднем, тем больше информации усиление. ${\ displaystyle X}$ $Икс$ ${\ displaystyle D _ {\ text {KL}} (p_ {X \ mid Y} \ parallel p_ {X})}$ ${\ displaystyle D _ {\ text {KL}} (p_ {X \ mid Y} \ parallel p_ {X})}$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle p_ {X}}$ $p_ {X}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle p_ {X \ mid Y}}$ ${\ displaystyle p_ {X \ mid Y}}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle p_ {X \ mid Y}}$ ${\ displaystyle p_ {X \ mid Y}}$ ${\ displaystyle p_ {X}}$ $p_ {X}$

Байесовская оценка взаимной информации

Если доступны выборки из совместного распределения, можно использовать байесовский подход для оценки взаимной информации этого распределения. Первой такой работой, которая также показала, как выполнять байесовскую оценку многих других теоретико-информационных свойств, помимо взаимной информации, была. Последующие исследователи переработали и расширили этот анализ. См. Недавнюю статью, основанную на предыдущем, специально разработанном для оценки взаимной информации как таковой. Кроме того, недавно в. ${\ displaystyle Y}$ $Y$

Допущения независимости

Формулировка взаимной информации о расхождении Кульбака-Лейблера основана на том, что каждый заинтересован в сравнении с полностью факторизованным внешним продуктом. Во многих задачах, таких как факторизация неотрицательной матрицы, интересуют менее экстремальные факторизации; в частности, кто-то желает сравнить с приближением матрицы низкого ранга по некоторой неизвестной переменной ; то есть, в какой степени можно было ${\ Displaystyle р (х, у)}$ $р (х, у)$ ${\ Displaystyle р (х) \ CDOT р (у)}$ ${\ Displaystyle р (х) \ CDOT р (у)}$ ${\ Displaystyle р (х, у)}$ $р (х, у)$ ${\ displaystyle w}$ $ш$

{\ Displaystyle р (х, у) \ приблизительно \ сумма _ {ш} р ^ {\ простое число} (х, ш) п ^ {\ простое \ простое число} (ш, у)}

{\ Displaystyle р (х, у) \ приблизительно \ сумма _ {ш} р ^ {\ простое число} (х, ш) п ^ {\ простое \ простое число} (ш, у)}

С другой стороны, может быть интересно узнать, сколько еще информации переносит его факторизация. В таком случае избыточная информация, которую полное распределение переносит через матричную факторизацию, дается дивергенцией Кульбака-Лейблера ${\ Displaystyle р (х, у)}$ $р (х, у)$ ${\ Displaystyle р (х, у)}$ $р (х, у)$

{\ displaystyle \ operatorname {I} _ {LRMA} = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}}} {p (x, y) \ log {\ left ({\ frac {p (x, y)} {\ sum _ {w} p ^ {\ prime} (x, w) p ^ {\ prime \ prime} (w, y)}}) \Правильно)}},}

{\ displaystyle \ operatorname {I} _ {LRMA} = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}}} {p (x, y) \ log {\ left ({\ frac {p (x, y)} {\ sum _ {w} p ^ {\ prime} (x, w) p ^ {\ prime \ prime} (w, y)}}) \Правильно)}},}

Традиционное определение взаимной информации восстанавливается в крайнем случае, когда процесс имеет только одно значение. ${\ displaystyle W}$ $W$ ${\ displaystyle w}$ $ш$

Вариации

Было предложено несколько вариантов взаимной информации для удовлетворения различных потребностей. Среди них - нормализованные варианты и обобщения для более чем двух переменных.

Метрическая

Многие приложения требуют метрики, то есть меры расстояния между парами точек. Количество

{\ Displaystyle {\ begin {выровнен} d (X, Y) amp; = \ mathrm {H} (X, Y) - \ operatorname {I} (X; Y) \\ amp; = \ mathrm {H} (X) + \ mathrm {H} (Y) -2 \ operatorname {I} (X; Y) \\ amp; = \ mathrm {H} (X \ mid Y) + \ mathrm {H} (Y \ mid X) \ end {выровнено}}}

{\ Displaystyle {\ begin {выровнен} d (X, Y) amp; = \ mathrm {H} (X, Y) - \ operatorname {I} (X; Y) \\ amp; = \ mathrm {H} (X) + \ mathrm {H} (Y) -2 \ operatorname {I} (X; Y) \\ amp; = \ mathrm {H} (X \ mid Y) + \ mathrm {H} (Y \ mid X) \ end {выровнено}}}

удовлетворяет свойствам метрики ( неравенство треугольника, неотрицательность, неразличимость и симметрия). Этот показатель расстояния также известен как изменение информации.

Если это дискретные случайные величины, тогда все члены энтропии неотрицательны, поэтому можно определить нормализованное расстояние ${\ displaystyle X, Y}$ $X, Y$ ${\ Displaystyle 0 \ Leq d (X, Y) \ Leq \ mathrm {H} (X, Y)}$ ${\ Displaystyle 0 \ Leq d (X, Y) \ Leq \ mathrm {H} (X, Y)}$

{\ Displaystyle D (X, Y) = {\ frac {d (X, Y)} {\ mathrm {H} (X, Y)}} \ leq 1.}

{\ Displaystyle D (X, Y) = {\ frac {d (X, Y)} {\ mathrm {H} (X, Y)}} \ leq 1.}

Метрика - универсальная метрика, в том смысле, что если какое-либо другое расстояние измеряет место и близко, то он также будет судить о них близко. ${\ displaystyle D}$ $D$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle D}$ $D$

Добавление определений показывает, что

{\ displaystyle D (X, Y) = 1 - {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X, Y)}}.}

{\ displaystyle D (X, Y) = 1 - {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X, Y)}}.}

В теоретико-множественной интерпретации информации (см. Рисунок для условной энтропии ) это фактически расстояние Жаккара между и. ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$

Наконец-то,

{\ displaystyle D ^ {\ prime} (X, Y) = 1 - {\ frac {\ operatorname {I} (X; Y)} {\ max \ left \ {\ mathrm {H} (X), \ mathrm {H} (Y) \ right \}}}}

{\ displaystyle D ^ {\ prime} (X, Y) = 1 - {\ frac {\ operatorname {I} (X; Y)} {\ max \ left \ {\ mathrm {H} (X), \ mathrm {H} (Y) \ right \}}}}

также является метрикой.

Условная взаимная информация

Основная статья: Условная взаимная информация

Иногда полезно выразить взаимную информацию двух случайных величин, обусловленную третьей.

${\ displaystyle \ operatorname {I} (X; Y | Z) = \ mathbb {E} _ {Z} [D _ {\ mathrm {KL}} (P _ {(X, Y) | Z} \ | P_ {X | Z} \ время P_ {Y | Z})]}$ ${\ displaystyle \ operatorname {I} (X; Y | Z) = \ mathbb {E} _ {Z} [D _ {\ mathrm {KL}} (P _ {(X, Y) | Z} \ | P_ {X | Z} \ время P_ {Y | Z})]}$

Для совместно дискретных случайных величин это принимает вид

{\ displaystyle \ operatorname {I} (X; Y | Z) = \ sum _ {z \ in {\ mathcal {Z}}} \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ { х \ in {\ mathcal {X}}} {p_ {Z} (z) \, p_ {X, Y | Z} (x, y | z) \ log \ left [{\ frac {p_ {X, Y | Z} (x, y | z)} {p_ {X | Z} \, (x | z) p_ {Y | Z} (y | z)}} \ right]},}

{\ displaystyle \ operatorname {I} (X; Y | Z) = \ sum _ {z \ in {\ mathcal {Z}}} \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ { х \ in {\ mathcal {X}}} {p_ {Z} (z) \, p_ {X, Y | Z} (x, y | z) \ log \ left [{\ frac {p_ {X, Y | Z} (x, y | z)} {p_ {X | Z} \, (x | z) p_ {Y | Z} (y | z)}} \ right]},}

который можно упростить как

{\ displaystyle \ operatorname {I} (X; Y | Z) = \ sum _ {z \ in {\ mathcal {Z}}} \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ { x \ in {\ mathcal {X}}} p_ {X, Y, Z} (x, y, z) \ log {\ frac {p_ {X, Y, Z} (x, y, z) p_ {Z) } (z)} {p_ {X, Z} (x, z) p_ {Y, Z} (y, z)}}.}.}

{\ displaystyle \ operatorname {I} (X; Y | Z) = \ sum _ {z \ in {\ mathcal {Z}}} \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ { x \ in {\ mathcal {X}}} p_ {X, Y, Z} (x, y, z) \ log {\ frac {p_ {X, Y, Z} (x, y, z) p_ {Z) } (z)} {p_ {X, Z} (x, z) p_ {Y, Z} (y, z)}}.}.}

Для совместно непрерывных случайных величин это принимает вид

{\ displaystyle \ operatorname {I} (X; Y | Z) = \ int _ {\ mathcal {Z}} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} {p_ {Z } (z) \, p_ {X, Y | Z} (x, y | z) \ log \ left [{\ frac {p_ {X, Y | Z} (x, y | z)} {p_ {X | Z} \, (x | z) p_ {Y | Z} (y | z)}} \ right]} dxdydz,}

{\ displaystyle \ operatorname {I} (X; Y | Z) = \ int _ {\ mathcal {Z}} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} {p_ {Z } (z) \, p_ {X, Y | Z} (x, y | z) \ log \ left [{\ frac {p_ {X, Y | Z} (x, y | z)} {p_ {X | Z} \, (x | z) p_ {Y | Z} (y | z)}} \ right]} dxdydz,}

который можно упростить как

{\ displaystyle \ operatorname {I} (X; Y | Z) = \ int _ {\ mathcal {Z}} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} p_ {X, Y, Z} (x, y, z) \ log {\ frac {p_ {X, Y, Z} (x, y, z) p_ {Z} (z)} {p_ {X, Z} (x, z) p_ {Y, Z} (y, z)}} dxdydz.}

{\ displaystyle \ operatorname {I} (X; Y | Z) = \ int _ {\ mathcal {Z}} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} p_ {X, Y, Z} (x, y, z) \ log {\ frac {p_ {X, Y, Z} (x, y, z) p_ {Z} (z)} {p_ {X, Z} (x, z) p_ {Y, Z} (y, z)}} dxdydz.}

Использование третьей случайной величины может увеличивать или уменьшать взаимную информацию, но всегда верно, что

{\ Displaystyle \ OperatorName {I} (X; Y | Z) \ geq 0}

{\ Displaystyle \ OperatorName {I} (X; Y | Z) \ geq 0}

для дискретных, совместно распределенных случайных величин. Этот результат был использован в качестве основного строительного блока для доказательства других неравенств в теории информации. ${\ displaystyle X, Y, Z}$ $X, Y, Z$

Информация о взаимодействии

Основная статья: Информация о взаимодействии

Было предложено несколько обобщений взаимной информации для более чем двух случайных величин, таких как полная корреляция (или мультиинформационная) и двойная полная корреляция. Выражение и изучение многомерной взаимной информации более высокой степени было достигнуто в двух, казалось бы, независимых работах: МакГилл (1954), который назвал эти функции «информацией о взаимодействии», и Ху Куо Тинг (1962). Информация о взаимодействии определяется для одной переменной следующим образом:

{\ Displaystyle \ OperatorName {I} (X_ {1}) = \ mathrm {H} (X_ {1})}

{\ Displaystyle \ OperatorName {I} (X_ {1}) = \ mathrm {H} (X_ {1})}

и для ${\ displaystyle ngt; 1,}$ $пgt; 1,$

{\ displaystyle \ operatorname {I} (X_ {1}; \,... \,; X_ {n}) = \ operatorname {I} (X_ {1}; \,... \,; X_ {n -1}) - \ operatorname {I} (X_ {1}; \,... \,; X_ {n-1} \ mid X_ {n}).}

{\ displaystyle \ operatorname {I} (X_ {1}; \,... \,; X_ {n}) = \ operatorname {I} (X_ {1}; \,... \,; X_ {n -1}) - \ operatorname {I} (X_ {1}; \,... \,; X_ {n-1} \ mid X_ {n}).}

Некоторые авторы меняют порядок членов в правой части предыдущего уравнения, которое меняет знак, когда количество случайных величин нечетное. (И в этом случае выражение с одной переменной становится отрицательным значением энтропии.) Обратите внимание, что

{\ displaystyle I (X_ {1}; \ ldots; X_ {n-1} \ mid X_ {n}) = \ mathbb {E} _ {X_ {n}} [D _ {\ mathrm {KL}} (P_ {(X_ {1}, \ ldots, X_ {n-1}) \ mid X_ {n}} \ | P_ {X_ {1} \ mid X_ {n}} \ otimes \ cdots \ otimes P_ {X_ {n -1} \ mid X_ {n}})].}

{\ displaystyle I (X_ {1}; \ ldots; X_ {n-1} \ mid X_ {n}) = \ mathbb {E} _ {X_ {n}} [D _ {\ mathrm {KL}} (P_ {(X_ {1}, \ ldots, X_ {n-1}) \ mid X_ {n}} \ | P_ {X_ {1} \ mid X_ {n}} \ otimes \ cdots \ otimes P_ {X_ {n -1} \ mid X_ {n}})].}

Многомерная статистическая независимость

Многомерные функции взаимной информации обобщают случай парной независимости, который утверждает, что если и только если, на произвольные многочисленные переменные. n переменных взаимно независимы тогда и только тогда, когда функции взаимной информации обращаются в нуль при (теорема 2). В этом смысле можно использовать как уточненный критерий статистической независимости. ${\ Displaystyle X_ {1}, X_ {2}}$ $X_ {1}, X_ {2}$ ${\ Displaystyle I (X_ {1}; X_ {2}) = 0}$ ${\ Displaystyle I (X_ {1}; X_ {2}) = 0}$ ${\ displaystyle 2 ^ {n} -n-1}$ ${\ displaystyle 2 ^ {n} -n-1}$ ${\ Displaystyle I (X_ {1}; \ ldots; X_ {k}) = 0}$ ${\ Displaystyle I (X_ {1}; \ ldots; X_ {k}) = 0}$ ${\ Displaystyle п \ geq к \ geq 2}$ ${\ Displaystyle п \ geq к \ geq 2}$ ${\ Displaystyle I (X_ {1}; \ ldots; X_ {k}) = 0}$ ${\ Displaystyle I (X_ {1}; \ ldots; X_ {k}) = 0}$

Приложения

Для 3 переменных Brenner et al. применили многомерную взаимную информацию к нейронному кодированию и назвали его отрицательность «синергизмом», а Watkinson et al. применил это к генетической экспрессии. Для произвольных k переменных Tapia et al. применили многомерную взаимную информацию к экспрессии генов). Он может быть нулевым, положительным или отрицательным. Позитивность соответствует отношениям, обобщающим попарные корреляции, нулевое значение соответствует уточненному понятию независимости, а отрицательность обнаруживает многомерные «возникающие» отношения и кластеризованные точки данных).

Одна многомерная схема обобщения, которая максимизирует взаимную информацию между совместным распределением и другими целевыми переменными, оказывается полезной при выборе признаков.

Взаимная информация также используется в области обработки сигналов как мера сходства между двумя сигналами. Например, показатель FMI - это показатель эффективности слияния изображений, который использует взаимную информацию для измерения количества информации, которую слитое изображение содержит об исходных изображениях. Код Matlab для этой метрики можно найти по адресу. Доступен пакет python для вычисления всей многомерной взаимной информации, условной взаимной информации, совместных энтропий, общих корреляций, информационного расстояния в наборе данных из n переменных.

Направленная информация

Направленная информация,, измеряет количество информации, которое вытекает из процесса к, где обозначает вектор и обозначает. Термин направленная информация был введен Джеймсом Мэсси и определяется как ${\ displaystyle \ operatorname {I} \ left (X ^ {n} \ to Y ^ {n} \ right)}$ ${\ displaystyle \ operatorname {I} \ left (X ^ {n} \ to Y ^ {n} \ right)}$ ${\ displaystyle X ^ {n}}$ $X ^ {n}$ ${\ displaystyle Y ^ {n}}$ $Г ^ {п}$ ${\ displaystyle X ^ {n}}$ $X ^ {n}$ ${\ displaystyle X_ {1}, X_ {2},..., X_ {n}}$ ${\ displaystyle X_ {1}, X_ {2},..., X_ {n}}$ ${\ displaystyle Y ^ {n}}$ $Г ^ {п}$ ${\ displaystyle Y_ {1}, Y_ {2},..., Y_ {n}}$ ${\ displaystyle Y_ {1}, Y_ {2},..., Y_ {n}}$

{\ displaystyle \ operatorname {I} \ left (X ^ {n} \ to Y ^ {n} \ right) = \ sum _ {i = 1} ^ {n} \ operatorname {I} \ left (X ^ { i}; Y_ {i} \ mid Y ^ {i-1} \ right)}

{\ displaystyle \ operatorname {I} \ left (X ^ {n} \ to Y ^ {n} \ right) = \ sum _ {i = 1} ^ {n} \ operatorname {I} \ left (X ^ { i}; Y_ {i} \ mid Y ^ {i-1} \ right)}

Обратите внимание, что если, направленная информация становится взаимной информацией. Направленная информация имеет множество применений в задачах, где причинно-следственная связь играет важную роль, таких как пропускная способность канала с обратной связью. ${\ displaystyle n = 1}$ $п = 1$

Нормализованные варианты

Нормализованные варианты взаимной информации представлены коэффициентами ограничения, коэффициента неопределенности или квалификации:

{\ displaystyle C_ {XY} = {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (Y)}} ~~~~ {\ t_dv {and}} ~~~~ C_ {YX} = {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X)}}.}.

{\ displaystyle C_ {XY} = {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (Y)}} ~~~~ {\ t_dv {and}} ~~~~ C_ {YX} = {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X)}}.}.

Два коэффициента имеют значение в диапазоне [0, 1], но не обязательно равны. В некоторых случаях может потребоваться симметричная мера, например следующая мера избыточности :

{\ Displaystyle R = {\ гидроразрыва {\ OperatorName {I} (X; Y)} {\ mathrm {H} (X) + \ mathrm {H} (Y)}}}

{\ Displaystyle R = {\ гидроразрыва {\ OperatorName {I} (X; Y)} {\ mathrm {H} (X) + \ mathrm {H} (Y)}}}

который достигает минимум нуля, когда переменные независимы, и максимальное значение

{\ displaystyle R _ {\ max} = {\ frac {\ min \ left \ {\ mathrm {H} (X), \ mathrm {H} (Y) \ right \}} {\ mathrm {H} (X) + \ mathrm {H} (Y)}}}

{\ displaystyle R _ {\ max} = {\ frac {\ min \ left \ {\ mathrm {H} (X), \ mathrm {H} (Y) \ right \}} {\ mathrm {H} (X) + \ mathrm {H} (Y)}}}

когда одна переменная становится полностью избыточной при знании другой. См. Также Резервирование (теория информации).

Другой симметричной мерой является симметричная неопределенность ( Witten amp; Frank 2005), определяемая формулой

{\ Displaystyle U (X, Y) = 2R = 2 {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X) + \ mathrm {H} (Y)}}}

{\ Displaystyle U (X, Y) = 2R = 2 {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X) + \ mathrm {H} (Y)}}}

который представляет собой среднее гармоническое значение двух коэффициентов неопределенности. ${\ displaystyle C_ {XY}, C_ {YX}}$ ${\ displaystyle C_ {XY}, C_ {YX}}$

Если мы рассматриваем взаимную информацию как частный случай полной корреляции или двойной полной корреляции, нормализованная версия, соответственно,

{\ displaystyle {\ frac {\ operatorname {I} (X; Y)} {\ min \ left [\ mathrm {H} (X), \ mathrm {H} (Y) \ right]}}}

{\ displaystyle {\ frac {\ operatorname {I} (X; Y)} {\ min \ left [\ mathrm {H} (X), \ mathrm {H} (Y) \ right]}}}

а также

{\ displaystyle {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X, Y)}} \ ;.}

{\ displaystyle {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X, Y)}} \ ;.}

Эта нормализованная версия, также известная как Коэффициент качества информации (IQR), которая определяет количество информации переменной на основе другой переменной в сравнении с общей неопределенностью:

{\ displaystyle IQR (X, Y) = \ operatorname {E} [\ operatorname {I} (X; Y)] = {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} ( X, Y)}} = {\ frac {\ sum _ {x \ in X} \ sum _ {y \ in Y} p (x, y) \ log {p (x) p (y)}} {\ sum _ {x \ in X} \ sum _ {y \ in Y} p (x, y) \ log {p (x, y)}}} - 1}

{\ displaystyle IQR (X, Y) = \ operatorname {E} [\ operatorname {I} (X; Y)] = {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} ( X, Y)}} = {\ frac {\ sum _ {x \ in X} \ sum _ {y \ in Y} p (x, y) \ log {p (x) p (y)}} {\ sum _ {x \ in X} \ sum _ {y \ in Y} p (x, y) \ log {p (x, y)}}} - 1}

Существует нормализация, которая происходит из первого представления о взаимной информации как о аналоге ковариации (таким образом, энтропия Шеннона аналогична дисперсии ). Затем вычисляется нормализованная взаимная информация по аналогии с коэффициентом корреляции Пирсона,

{\ displaystyle {\ frac {\ operatorname {I} (X; Y)} {\ sqrt {\ mathrm {H} (X) \ mathrm {H} (Y)}}} \ ;.}

{\ displaystyle {\ frac {\ operatorname {I} (X; Y)} {\ sqrt {\ mathrm {H} (X) \ mathrm {H} (Y)}}} \ ;.}

Взвешенные варианты

В традиционной формулировке взаимной информации,

{\ Displaystyle \ OperatorName {I} (X; Y) = \ sum _ {y \ in Y} \ sum _ {x \ in X} p (x, y) \ log {\ frac {p (x, y) } {p (x) \, p (y)}},}

{\ Displaystyle \ OperatorName {I} (X; Y) = \ sum _ {y \ in Y} \ sum _ {x \ in X} p (x, y) \ log {\ frac {p (x, y) } {p (x) \, p (y)}},}

каждое событие или объект, указанные в, взвешиваются по соответствующей вероятности. Это предполагает, что все объекты или события эквивалентны, за исключением вероятности их возникновения. Однако в некоторых приложениях может случиться так, что одни объекты или события более значимы, чем другие, или что определенные шаблоны ассоциации более семантически важны, чем другие. ${\ Displaystyle (х, у)}$ $(х, у)$ ${\ Displaystyle р (х, у)}$ ${\ Displaystyle р (х, у)}$

Например, детерминированное отображение можно рассматривать как более сильное, чем детерминированное отображение, хотя эти отношения дадут ту же взаимную информацию. Это связано с тем, что взаимная информация вообще не чувствительна к какому-либо внутреннему порядку в значениях переменных ( Cronbach 1954, Coombs, Dawes amp; Tversky 1970, Lockhead 1970) и, следовательно, не чувствительна вообще к форме реляционного отображения между связанные переменные. Если желательно, чтобы первое отношение, показывающее согласие по всем значениям переменных, было более сильным, чем более позднее, можно использовать следующую взвешенную взаимную информацию ( Guiasu 1977). ${\ Displaystyle \ {(1,1), (2,2), (3,3) \}}$ $\ {(1,1), (2,2), (3,3) \}$ ${\ Displaystyle \ {(1,3), (2,1), (3,2) \}}$ $\ {(1,3), (2,1), (3,2) \}$

{\ displaystyle \ operatorname {I} (X; Y) = \ sum _ {y \ in Y} \ sum _ {x \ in X} w (x, y) p (x, y) \ log {\ frac { p (x, y)} {p (x) \, p (y)}},}

{\ displaystyle \ operatorname {I} (X; Y) = \ sum _ {y \ in Y} \ sum _ {x \ in X} w (x, y) p (x, y) \ log {\ frac { p (x, y)} {p (x) \, p (y)}},}

который придает вес вероятности одновременного появления каждого значения переменной. Это допускает, что определенные вероятности могут иметь большее или меньшее значение, чем другие, тем самым позволяя количественную оценку соответствующих холистических факторов или факторов Прэгнанца. В приведенном выше примере использование больших относительных весов для, и будет иметь эффект оценки большей информативности отношения, чем отношения, что может быть желательно в некоторых случаях распознавания образов и т.п. Эта взвешенная взаимная информация является формой взвешенной KL-дивергенции, которая, как известно, принимает отрицательные значения для некоторых входных данных, и есть примеры, когда взвешенная взаимная информация также принимает отрицательные значения. ${\ Displaystyle ш (х, у)}$ $ш (х, у)$ ${\ Displaystyle р (х, у)}$ $р (х, у)$ ${\ Displaystyle ш (1,1)}$ $ш (1,1)$ ${\ Displaystyle ш (2,2)}$ $ш (2,2)$ ${\ Displaystyle ш (3,3)}$ $ш (3,3)$ ${\ Displaystyle \ {(1,1), (2,2), (3,3) \}}$ $\ {(1,1), (2,2), (3,3) \}$ ${\ Displaystyle \ {(1,3), (2,1), (3,2) \}}$ $\ {(1,3), (2,1), (3,2) \}$

Скорректированная взаимная информация

Основная статья: скорректированная взаимная информация

Распределение вероятностей можно рассматривать как разбиение множества. Тогда можно спросить: если бы множество было разбито случайным образом, каким было бы распределение вероятностей? Какова ожидаемая ценность взаимной информации? Регулируется взаимной информации или AMI вычитает среднее значение МИ, так что АМИ равен нулю, когда два различных распределения являются случайными, и один, когда два распределения одинаковы. AMI определяется по аналогии со скорректированным индексом Rand двух разных разделов набора.

Абсолютная взаимная информация

Используя идеи колмогоровской сложности, можно рассматривать взаимную информацию двух последовательностей независимо от какого-либо распределения вероятностей:

{\ displaystyle \ operatorname {I} _ {K} (X; Y) = K (X) -K (X \ mid Y).}

{\ displaystyle \ operatorname {I} _ {K} (X; Y) = K (X) -K (X \ mid Y).}

Чтобы установить, что эта величина симметрична с точностью до логарифмического множителя (), требуется цепное правило для сложности Колмогорова ( Li amp; Vitányi 1997). Аппроксимация этой величины посредством сжатия может использоваться для определения меры расстояния для выполнения иерархической кластеризации последовательностей без знания какой-либо предметной области последовательностей ( Cilibrasi amp; Vitányi 2005). ${\ Displaystyle \ OperatorName {I} _ {K} (X; Y) \ приблизительно \ OperatorName {I} _ {K} (Y; X)}$ ${\ Displaystyle \ OperatorName {I} _ {K} (X; Y) \ приблизительно \ OperatorName {I} _ {K} (Y; X)}$

Линейная корреляция

В отличие от коэффициентов корреляции, таких как коэффициент корреляции момента продукта, взаимная информация содержит информацию обо всех зависимостях - линейных и нелинейных, - а не только о линейных зависимостях, как измеряет коэффициент корреляции. Однако в узком случае, когда совместное распределение для и является двумерным нормальным распределением (подразумевая, в частности, что оба предельных распределения нормально распределены), существует точная связь между коэффициентом корреляции и ( Гельфанд и Яглом, 1957). ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle \ operatorname {I}}$ ${\ displaystyle \ operatorname {I}}$ ${\ displaystyle \ rho}$ $\ rho$

{\ displaystyle \ operatorname {I} = - {\ frac {1} {2}} \ log \ left (1- \ rho ^ {2} \ right)}

{\ displaystyle \ operatorname {I} = - {\ frac {1} {2}} \ log \ left (1- \ rho ^ {2} \ right)}

Приведенное выше уравнение может быть получено следующим образом для двумерной гауссианы:

{\ displaystyle {\ begin {align} {\ begin {pmatrix} X_ {1} \\ X_ {2} \ end {pmatrix}} amp; \ sim {\ mathcal {N}} \ left ({\ begin {pmatrix} \ mu _ {1} \\\ mu _ {2} \ end {pmatrix}}, \ Sigma \ right), \ qquad \ Sigma = {\ begin {pmatrix} \ sigma _ {1} ^ {2} amp; \ rho \ sigma _ {1} \ sigma _ {2} \\\ rho \ sigma _ {1} \ sigma _ {2} amp; \ sigma _ {2} ^ {2} \ end {pmatrix}} \\\ mathrm {H} (X_ {i}) amp; = {\ frac {1} {2}} \ log \ left (2 \ pi e \ sigma _ {i} ^ {2} \ right) = {\ frac {1} {2}} + {\ frac {1} {2}} \ log (2 \ pi) + \ log \ left (\ sigma _ {i} \ right), \ quad i \ in \ {1,2 \} \\\ mathrm {H} (X_ {1}, X_ {2}) amp; = {\ frac {1} {2}} \ log \ left [(2 \ pi e) ^ {2} | \ Sigma | \ right] = 1 + \ log (2 \ pi) + \ log \ left (\ sigma _ {1} \ sigma _ {2} \ right) + {\ frac {1} {2}} \ log \ left (1 - \ rho ^ {2} \ right) \\\ конец {выровнено}}}

{\ displaystyle {\ begin {align} {\ begin {pmatrix} X_ {1} \\ X_ {2} \ end {pmatrix}} amp; \ sim {\ mathcal {N}} \ left ({\ begin {pmatrix} \ mu _ {1} \\\ mu _ {2} \ end {pmatrix}}, \ Sigma \ right), \ qquad \ Sigma = {\ begin {pmatrix} \ sigma _ {1} ^ {2} amp; \ rho \ sigma _ {1} \ sigma _ {2} \\\ rho \ sigma _ {1} \ sigma _ {2} amp; \ sigma _ {2} ^ {2} \ end {pmatrix}} \\\ mathrm {H} (X_ {i}) amp; = {\ frac {1} {2}} \ log \ left (2 \ pi e \ sigma _ {i} ^ {2} \ right) = {\ frac {1} {2}} + {\ frac {1} {2}} \ log (2 \ pi) + \ log \ left (\ sigma _ {i} \ right), \ quad i \ in \ {1,2 \} \\\ mathrm {H} (X_ {1}, X_ {2}) amp; = {\ frac {1} {2}} \ log \ left [(2 \ pi e) ^ {2} | \ Sigma | \ right] = 1 + \ log (2 \ pi) + \ log \ left (\ sigma _ {1} \ sigma _ {2} \ right) + {\ frac {1} {2}} \ log \ left (1 - \ rho ^ {2} \ right) \\\ конец {выровнено}}}

Следовательно,

{\ displaystyle \ operatorname {I} \ left (X_ {1}; X_ {2} \ right) = \ mathrm {H} \ left (X_ {1} \ right) + \ mathrm {H} \ left (X_ { 2} \ right) - \ mathrm {H} \ left (X_ {1}, X_ {2} \ right) = - {\ frac {1} {2}} \ log \ left (1- \ rho ^ {2 }\Правильно)}

{\ displaystyle \ operatorname {I} \ left (X_ {1}; X_ {2} \ right) = \ mathrm {H} \ left (X_ {1} \ right) + \ mathrm {H} \ left (X_ { 2} \ right) - \ mathrm {H} \ left (X_ {1}, X_ {2} \ right) = - {\ frac {1} {2}} \ log \ left (1- \ rho ^ {2 }\Правильно)}

Для дискретных данных

Когда и ограничены дискретным числом состояний, данные наблюдений суммируются в таблице непредвиденных обстоятельств с переменной строки (или) и переменной столбца (или). Взаимная информация - это одна из мер связи или корреляции между переменными строки и столбца. Другие меры ассоциации включают статистику критерия хи-квадрат Пирсона, статистику G-критерия и т. Д. Фактически, взаимная информация равна статистике G-критерия, деленной на, где - размер выборки. ${\ displaystyle X}$ $Икс$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle i}$ $я$ ${\ displaystyle Y}$ $Y$ ${\ displaystyle j}$ $j$ ${\ displaystyle 2N}$ $2N$ ${\ displaystyle N}$ $N$

Приложения

Во многих приложениях требуется максимизировать взаимную информацию (таким образом, увеличивая зависимости), что часто эквивалентно минимизации условной энтропии. Примеры включают:

В технологии поисковых машин взаимная информация между фразами и контекстами используется в качестве функции кластеризации k-средних для обнаружения семантических кластеров (концептов). Например, взаимная информация биграммы может быть вычислена как:

${\ displaystyle MI (x, y) = \ log {\ frac {P_ {X, Y} (x, y)} {P_ {X} (x) P_ {Y} (y)}} \ приблизительно \ log { \ frac {\ frac {f_ {XY}} {B}} {{\ frac {f_ {X}} {U}} {\ frac {f_ {Y}} {U}}}}}$ ${\ displaystyle MI (x, y) = \ log {\ frac {P_ {X, Y} (x, y)} {P_ {X} (x) P_ {Y} (y)}} \ приблизительно \ log { \ frac {\ frac {f_ {XY}} {B}} {{\ frac {f_ {X}} {U}} {\ frac {f_ {Y}} {U}}}}}$

где - количество раз, когда биграмма xy появляется в корпусе, - это количество раз, когда униграмма x появляется в корпусе, B - общее количество биграмм, а U - общее количество униграмм.

{\ displaystyle f_ {XY}}

{\ displaystyle f_ {XY}}

{\ displaystyle f_ {X}}

{\ displaystyle f_ {X}}

В области телекоммуникаций, то пропускная способность канала равна взаимной информацию, развернутой по всем распределениям ввода.
Предложены процедуры дискриминирующего обучения скрытых марковских моделей на основе критерия максимальной взаимной информации (MMI).
Предсказание вторичной структуры РНК на основе множественного выравнивания последовательностей.
Прогноз филогенетического профилирования на основании попарного присутствия и исчезновения функционально связанных генов.
Взаимная информация использовалась в качестве критерия для выбора функций и преобразования функций в машинном обучении. Его можно использовать для характеристики как релевантности, так и избыточности переменных, например выбора функции минимальной избыточности.
Взаимная информация используется для определения сходства двух разных кластеров набора данных. Таким образом, он дает некоторые преимущества по сравнению с традиционным индексом Rand.
Взаимная информация слов часто используется как функция значимости для вычисления словосочетаний в лингвистике корпуса. Это имеет дополнительную сложность, заключающуюся в том, что ни один экземпляр слова не является экземпляром двух разных слов; скорее, учитываются случаи, когда 2 слова встречаются рядом или в непосредственной близости; это немного усложняет расчет, поскольку ожидаемая вероятность того, что одно слово встретится в словах другого, возрастает. ${\ displaystyle N}$ $N$ ${\ displaystyle N}$ $N$
Взаимная информация используется в медицинской визуализации для регистрации изображений. Учитывая эталонное изображение (например, сканирование мозга) и второе изображение, которое необходимо поместить в ту же систему координат, что и эталонное изображение, это изображение деформируется до тех пор, пока взаимная информация между ним и эталонным изображением не будет максимальной.
Обнаружение фазовой синхронизации при анализе временных рядов
В INFOMAX метода нейронной сети, и другого машинное обучение, в том числе INFOMAX на основе независимого компонентов анализа алгоритма
Средняя взаимная информация в теореме внедрения задержки используется для определения параметра задержки внедрения.
Взаимная информация между генами в данных экспрессии микрочипов используется алгоритмом ARACNE для реконструкции генных сетей.
В статистической механике, парадокс Лошмидта может быть выражено в терминах взаимной информации. Лошмидт отметил, что невозможно определить физический закон, в котором отсутствует симметрия обращения времени (например, второй закон термодинамики ), только из физических законов, обладающих этой симметрией. Он отметил, что Н-теорема о Больцмане сделал предположение, что скорости частиц в газе были постоянно коррелированны, которые удаляют временную симметрию, присущую H-теорема. Можно показать, что если система описывается плотностью вероятности в фазовом пространстве, то из теоремы Лиувилля следует, что совместная информация (отрицательная от совместной энтропии) распределения остается постоянной во времени. Совместная информация равна взаимной информации плюс сумма всей маргинальной информации (отрицательной из предельных энтропий) для каждой координаты частицы. Предположение Больцмана сводится к игнорированию взаимной информации при вычислении энтропии, которая дает термодинамическую энтропию (деленную на постоянную Больцмана).
Взаимная информация используется для изучения структуры байесовских сетей / динамических байесовских сетей, которая, как считается, объясняет причинную связь между случайными величинами, как показано на примере инструментария GlobalMIT: изучение глобально оптимальной динамической байесовской сети с критерием теста взаимной информации.
Взаимная информация используется для количественной оценки информации, передаваемой во время процедуры обновления в алгоритме выборки Гиббса.
Популярная функция стоимости в изучении дерева решений.
Взаимная информация используется в космологии для проверки влияния крупномасштабной окружающей среды на свойства галактик в Галактическом зоопарке.
Взаимная информация использовалась в солнечной физике для получения профиля солнечного дифференциального вращения, карты отклонения времени прохождения для солнечных пятен и диаграммы время-расстояние по измерениям спокойного Солнца.
Используется в инвариантной кластеризации информации для автоматического обучения классификаторов нейронных сетей и сегментеров изображений без помеченных данных.

Смотрите также

Примечания

^ Обложка, Томас М.; Томас, Джой А. (2005). Элементы теории информации (PDF). John Wiley amp; Sons, Ltd., стр. 13–55. ISBN 9780471748823.
^ Креер, JG (1957). «Вопрос терминологии». Сделки IRE по теории информации. 3 (3): 208. DOI : 10,1109 / TIT.1957.1057418.
^ ^a ^b ^c Крышка, TM; Томас, Дж. А. (1991). Элементы теории информации (ред. Вили). ISBN 978-0-471-24195-9.
^ Wolpert, DH; Вольф, Д.Р. (1995). «Оценочные функции вероятностных распределений по конечному набору выборок». Physical Review E. 52 (6): 6841–6854. Bibcode : 1995PhRvE..52.6841W. CiteSeerX 10.1.1.55.7122. DOI : 10.1103 / PhysRevE.52.6841. PMID 9964199. S2CID 9795679.
^ Хуттер, М. (2001). «Распространение взаимной информации». Достижения в системах обработки нейронной информации 2001.
^ Арчер, E.; Парк, И. М.; Подушка, J. (2013). "Байесовские и квазибайесовские оценки взаимной информации из дискретных данных". Энтропия. 15 (12): 1738–1755. Bibcode : 2013Entrp..15.1738A. CiteSeerX 10.1.1.294.4690. DOI : 10.3390 / e15051738.
^ Wolpert, DH; ДеДео, С. (2013). «Оценочные функции распределений, определенных в пространствах неизвестного размера». Энтропия. 15 (12): 4668–4699. arXiv : 1311.4548. Bibcode : 2013Entrp..15.4668W. DOI : 10.3390 / e15114668. S2CID 2737117.
^ Tomasz Jetka; Кароль Ниеналтовски; Томаш Винарский; Славомир Блонски; Михал Коморовский (2019), «Теоретико-информационный анализ многомерных сигнальных ответов отдельных клеток», PLOS Computational Biology, 15 (7): e1007132, arXiv : 1808.05581, Bibcode : 2019PLSCB..15E7132J, doi : 10.1371 / journal.pcbi. 1007132, PMC 6655862, PMID 31299056
^ Красков, Александр; Штегбауэр, Харальд; Andrzejak, Ralph G.; Грассбергер, Питер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio / 0311039. Bibcode : 2003q.bio.... 11039K. Цитировать журнал требует |journal=( помощь )
Перейти ↑ McGill, W. (1954). «Многомерная передача информации». Психометрика. 19 (1): 97–116. DOI : 10.1007 / BF02289159. S2CID 126431489.
^ ^а ^б Ху, KT (1962). «Об объеме информации». Теория вероятн. Прил. 7 (4): 439–447. DOI : 10.1137 / 1107041.
^ ^a ^b Baudot, P.; Tapia, M.; Bennequin, D.; Гоайярд, Дж. М. (2019). «Анализ топологической информации». Энтропия. 21 (9). 869. arXiv : 1907.04242. Bibcode : 2019Entrp..21..869B. DOI : 10.3390 / e21090869. S2CID 195848308.
^ Бреннер, N.; Strong, S.; Koberle, R.; Bialek, W. (2000). «Синергия в нейронном коде». Neural Comput. 12 (7): 1531–1552. DOI : 10.1162 / 089976600300015259. PMID 10935917. S2CID 600528.
^ Watkinson, J.; Liang, K.; Ван, X.; Zheng, T.; Анастасиу, Д. (2009). «Вывод регулятивных взаимодействий генов из данных экспрессии с использованием трехсторонней взаимной информации». Чалл. Syst. Биол. Анна. NY Acad. Sci. 1158 (1): 302–313. Bibcode : 2009NYASA1158..302W. DOI : 10.1111 / j.1749-6632.2008.03757.x. PMID 19348651. S2CID 8846229.
^ ^а ^б Тапиа, М.; Baudot, P.; Формизано-Трезины, Ц.; Dufour, M.; Гоайярд, Дж. М. (2018). «Идентичность нейротрансмиттера и электрофизиологический фенотип генетически связаны в дофаминергических нейронах среднего мозга». Sci. Rep. 8 (1): 13637. Bibcode : 2018NatSR... 813637T. DOI : 10.1038 / s41598-018-31765-Z. PMC 6134142. PMID 30206240.
^ Кристофер Д. Мэннинг; Прабхакар Рагхаван; Хинрих Шютце (2008). Введение в поиск информации. Издательство Кембриджского университета. ISBN 978-0-521-86571-5.
^ Haghighat, MBA; Агаголзаде, А.; Сейедараби, Х. (2011). «Неопорный показатель слияния изображений, основанный на взаимной информации о характеристиках изображения». Компьютеры и электротехника. 37 (5): 744–756. DOI : 10.1016 / j.compeleceng.2011.07.012.
^ «Метрика Feature Mutual Information (FMI) для нереференсного слияния изображений - Обмен файлами - MATLAB Central». www.mathworks.com. Проверено 4 апреля 2018 года.
^ "InfoTopo: Анализ топологической информации. Глубокое статистическое обучение без учителя и с учителем - Обмен файлами - Github". github.com/pierrebaudot/infotopopy/. Проверено 26 сентября 2020 года.
^ Мэсси, Джеймс (1990). «Причинно-следственная связь, обратная связь и управляемая информация». Proc. 1990 г. Symp. на Инфо. Чт. и его применение, Waikiki, Гавайи, ноябрь 27-30, 1990. CiteSeerX 10.1.1.36.5688.
^ Пермутер, Хаим Генри; Вайсман, Цачи; Голдсмит, Андреа Дж. (Февраль 2009 г.). «Конечные каналы с инвариантной во времени детерминированной обратной связью». IEEE Transactions по теории информации. 55 (2): 644–662. arXiv : cs / 0608070. DOI : 10.1109 / TIT.2008.2009849. S2CID 13178.
Перейти ↑ Coombs, Dawes amp; Tversky 1970.
^ ^a ^b Нажмите, WH; Теукольский, С.А.; Феттерлинг, штат Вашингтон; Фланнери, ВР (2007). «Раздел 14.7.3. Условная энтропия и взаимная информация». Числовые рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
^ Белый, Джим; Штейнгольд, Сэм; Фурнель, Конни. Метрики производительности для алгоритмов обнаружения групп (PDF). Интерфейс 2004 г.
^ Виджая, Деди Рахман; Сарно, Риянарто; Зулайка, Энни (2017). «Коэффициент качества информации как новый показатель для выбора материнского вейвлета». Хемометрика и интеллектуальные лабораторные системы. 160: 59–71. DOI : 10.1016 / j.chemolab.2016.11.012.
^ Штрел, Александр; Гош, Джойдип (2003). «Кластерные ансамбли - структура повторного использования знаний для объединения нескольких разделов» (PDF). Журнал исследований в области машинного обучения. 3: 583–617. DOI : 10.1162 / 153244303321897735.
^ Kvålseth, TO (1991). «Относительная мера полезной информации: некоторые комментарии». Информационные науки. 56 (1): 35–38. DOI : 10.1016 / 0020-0255 (91) 90022-м.
Перейти ↑ Pocock, A. (2012). Выбор характеристик через совместное правдоподобие (PDF) (Диссертация).
^ ^a ^b Анализ естественного языка с использованием статистики взаимной информации Дэвида М. Магермана и Митчелла П. Маркуса
^ Хью Эверетт Теория Универсальной волновой функции, Thesis, Принстонский университет (1956, 1973), стр 1-140 (стр 30)
^ Эверетт, Хью (1957). "Формулировка относительного состояния квантовой механики". Обзоры современной физики. 29 (3): 454–462. Bibcode : 1957RvMP... 29..454E. DOI : 10,1103 / revmodphys.29.454. Архивировано из оригинала на 2011-10-27. Проверено 16 июля 2012.
^ GlobalMIT в Google Code
↑ Ли, Се Юн (2021). "Сэмплер Гиббса и вариационный вывод координатного восхождения: теоретико-множественный обзор". Коммуникации в статистике - теория и методы: 1–21. arXiv : 2008.01006. DOI : 10.1080 / 03610926.2021.1921214.
^ Ключи, Дастин; Холиков, Шукур; Певцов, Алексей А. (февраль 2015). «Применение методов взаимной информации во временной дистанционной гелиосейсмологии». Солнечная физика. 290 (3): 659–671. arXiv : 1501.05597. Bibcode : 2015SoPh..290..659K. DOI : 10.1007 / s11207-015-0650-у. S2CID 118472242.
^ Инвариантная кластеризация информации для неконтролируемой классификации изображений и сегментации Сюй Цзи, Жоао Энрикес и Андреа Ведальди

использованная литература

Baudot, P.; Tapia, M.; Bennequin, D.; Гоайярд, Дж. М. (2019). «Анализ топологической информации». Энтропия. 21 (9). 869. arXiv : 1907.04242. Bibcode : 2019Entrp..21..869B. DOI : 10.3390 / e21090869. S2CID 195848308.
Cilibrasi, R.; Витани, Пол (2005). «Кластеризация сжатием» (PDF). IEEE Transactions по теории информации. 51 (4): 1523–1545. arXiv : cs / 0312044. DOI : 10.1109 / TIT.2005.844059. Кирилл 911.
Кронбах, LJ (1954). «О нерациональном применении информационных мер в психологии». В Quastler, Генри (ред.). Теория информации в психологии: проблемы и методы. Гленко, Иллинойс: Свободная пресса. С. 14–30.
Кумбс, Швейцария; Dawes, RM; Тверски, А. (1970). Математическая психология: элементарное введение. Энглвуд Клиффс, Нью-Джерси: Прентис-Холл.
Церковь, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография». Труды 27-го ежегодного собрания Ассоциации компьютерной лингвистики: 76–83. DOI : 10.3115 / 981623.981633.
Гельфанд И.М.; Яглом AM (1957). «Вычисление количества информации о случайной функции, содержащейся в другой такой функции». Переводы Американского математического общества. Серия 2. 12: 199–246. DOI : 10.1090 / trans2 / 012/09. ISBN 9780821817124. Английский перевод оригинала в Успехах математических наук 12 (1): 3-52.
Гиасу, Сильвиу (1977). Теория информации с приложениями. Макгроу-Хилл, Нью-Йорк. ISBN 978-0-07-025109-0.
Ли, Мин; Витани, Пол (февраль 1997 г.). Введение в колмогоровскую сложность и ее приложения. Нью-Йорк: Springer-Verlag. ISBN 978-0-387-94868-3.
Локхед, GR (1970). «Идентификация и форма многомерного дискриминирующего пространства». Журнал экспериментальной психологии. 85 (1): 1–10. DOI : 10.1037 / h0029508. PMID 5458322.
Дэвид Дж. К. Маккей. Теория информации, логический вывод и алгоритмы обучения Кембридж: Cambridge University Press, 2003. ISBN 0-521-64298-1 (доступно бесплатно в Интернете)
Хагигхат, MBA; Агаголзаде, А.; Сейедараби, Х. (2011). «Неопорный показатель слияния изображений, основанный на взаимной информации о характеристиках изображения». Компьютеры и электротехника. 37 (5): 744–756. DOI : 10.1016 / j.compeleceng.2011.07.012.
Афанасиос Папулис. Вероятность, случайные величины и случайные процессы, второе издание. Нью-Йорк: Макгроу-Хилл, 1984. (см. Главу 15.)
Виттен, Ян Х. и Франк, Эйбе (2005). Data Mining: практические инструменты и методы машинного обучения. Морган Кауфманн, Амстердам. ISBN 978-0-12-374856-0.
Пэн, HC; Лонг, Ф. и Динг, К. (2005). «Выбор функций на основе взаимной информации: критерии максимальной зависимости, максимальной релевантности и минимальной избыточности». IEEE Transactions по анализу шаблонов и машинному анализу. 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765. DOI : 10.1109 / tpami.2005.159. PMID 16119262. S2CID 206764015.
Андре С. Рибейро; Стюарт А. Кауфман; Джейсон Ллойд-Прайс; Бьорн Самуэльссон и Джошуа Соолар (2008). «Взаимная информация в случайных булевых моделях регуляторных сетей». Physical Review E. 77 (1): 011901. arXiv : 0707.3642. Bibcode : 2008PhRvE..77a1901R. DOI : 10.1103 / physreve.77.011901. PMID 18351870. S2CID 15232112.
Уэллс, WM III; Альт, P.; Atsumi, H.; Nakajima, S.; Кикинис, Р. (1996). «Мультимодальная регистрация объема путем максимизации взаимной информации» (PDF). Анализ медицинских изображений. 1 (1): 35–51. DOI : 10.1016 / S1361-8415 (01) 80004-9. PMID 9873920. Архивировано из оригинального (PDF) 06.09.2008. Проверено 5 августа 2010.
Панди, Бисваджит; Саркар, Суман (2017). «Насколько галактика знает о своем крупномасштабном окружении ?: Теоретическая перспектива». Ежемесячные уведомления о письмах Королевского астрономического общества. 467 (1): L6. arXiv : 1611.00283. Полномочный код : 2017MNRAS.467L... 6P. DOI : 10.1093 / mnrasl / slw250. S2CID 119095496.