Взаимная информация

редактировать
Диаграмма Венна, показывающая аддитивные и вычитающие отношения различных информационных показателей, связанных с коррелированными переменными и. Площадь, содержащаяся в обоих кругах, является совместной энтропией. Круг слева (красный и фиолетовый) - это индивидуальная энтропия, а красный - условная энтропия. Круг справа (синий и фиолетовый) - это синее существо. Фиолетовый - взаимная информация. Икс {\ displaystyle X} Y {\ displaystyle Y} ЧАС ( Икс , Y ) {\ Displaystyle \ mathrm {H} (X, Y)} ЧАС ( Икс ) {\ Displaystyle \ mathrm {H} (X)} ЧАС ( Икс Y ) {\ Displaystyle \ mathrm {H} (X \ середина Y)} ЧАС ( Y ) {\ Displaystyle \ mathrm {H} (Y)} ЧАС ( Y Икс ) {\ displaystyle \ mathrm {H} (Y \ mid X)} я ( Икс ; Y ) {\ displaystyle \ operatorname {I} (X; Y)}

В теории вероятностей и теории информации, то взаимная информация ( MI) два случайных величин является мерой взаимной зависимости между двумя переменными. Более конкретно, оно квантифицирует « количество информации » (в единицах, такие как Shannons ( биты ), нац или Hartleys ), полученный около одной случайной величины, наблюдая за другую случайную величину. Концепция взаимной информации тесно связана с концепцией энтропии случайной величины, фундаментальным понятием в теории информации, которое количественно определяет ожидаемое «количество информации», содержащееся в случайной величине.

Не ограничиваясь действительными случайными величинами и линейной зависимостью, такой как коэффициент корреляции, MI является более общим и определяет, насколько совместное распределение пары отличается от произведения предельных распределений и. MI является ожидаемым значением в точечно взаимной информации (PMI). ( Икс , Y ) {\ displaystyle (X, Y)} Икс {\ displaystyle X} Y {\ displaystyle Y}

Величина была определена и проанализирована Клодом Шенноном в его знаменательной статье « Математическая теория коммуникации », хотя он не называл это «взаимной информацией». Этот термин был введен позже Робертом Фано. Взаимная информация также известна как получение информации.

СОДЕРЖАНИЕ
  • 1 Определение
  • 2 В терминах PMF для дискретных распределений
  • 3 С точки зрения PDF для непрерывных распределений
  • 4 Мотивация
  • 5 Отношение к другим величинам
    • 5.1 Неотрицательность
    • 5.2 Симметрия
    • 5.3 Связь с условной и совместной энтропией
    • 5.4 Связь с расхождением Кульбака – Лейблера
    • 5.5 Байесовская оценка взаимной информации
    • 5.6 Допущения независимости
  • 6 вариаций
    • 6.1 Метрическая система
    • 6.2 Условная взаимная информация
    • 6.3 Информация о взаимодействии
      • 6.3.1 Многомерная статистическая независимость
      • 6.3.2 Приложения
    • 6.4 Направленная информация
    • 6.5 Нормализованные варианты
    • 6.6 Взвешенные варианты
    • 6.7 Скорректированная взаимная информация
    • 6.8 Абсолютная взаимная информация
    • 6.9 Линейная корреляция
    • 6.10 Для дискретных данных
  • 7 приложений
  • 8 См. Также
  • 9 Примечания
  • 10 Ссылки
Определение

Позвольте быть пара случайных величин со значениями в пространстве. Если их совместное распределение равно и предельные распределения равны и, взаимная информация определяется как ( Икс , Y ) {\ displaystyle (X, Y)} Икс × Y {\ Displaystyle {\ mathcal {X}} \ times {\ mathcal {Y}}} п ( Икс , Y ) {\ Displaystyle P _ {(X, Y)}} п Икс {\ Displaystyle P_ {X}} п Y {\ displaystyle P_ {Y}}

я ( Икс ; Y ) знак равно D K L ( п ( Икс , Y ) п Икс п Y ) {\ Displaystyle I (X; Y) = D _ {\ mathrm {KL}} (P _ {(X, Y)} \ | P_ {X} \ otimes P_ {Y})}

где - расходимость Кульбака – Лейблера. D K L {\ Displaystyle D _ {\ mathrm {KL}}}

Обратите внимание, что в собственности дивергенции Кульбака-Лейблера, что равно нулю именно тогда, когда совместное распределение совпадает с произведением маргиналов, т.е. когда и являются независимыми (и, следовательно, наблюдения ничего не говорит вам о). В общем случае неотрицательно, это мера стоимости кодирования как пары независимых случайных величин, хотя на самом деле это не так. я ( Икс ; Y ) {\ Displaystyle I (X; Y)} Икс {\ displaystyle X} Y {\ displaystyle Y} Y {\ displaystyle Y} Икс {\ displaystyle X} я ( Икс ; Y ) {\ Displaystyle I (X; Y)} ( Икс , Y ) {\ displaystyle (X, Y)}

В терминах PMF для дискретных распределений

Взаимная информация двух совместно дискретных случайных величин и вычисляется как двойная сумма: Икс {\ displaystyle X} Y {\ displaystyle Y}

я ( Икс ; Y ) знак равно у Y Икс Икс п ( Икс , Y ) ( Икс , у ) бревно ( п ( Икс , Y ) ( Икс , у ) п Икс ( Икс ) п Y ( у ) ) , {\ displaystyle \ operatorname {I} (X; Y) = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}}} {p _ {(X, Y)} (x, y) \ log \ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ {Y} (y)}} \Правильно)},}

 

 

 

 

( Уравнение 1)

где есть совместная вероятность массовый функция из и, и, и являются предельными вероятностями массовых функций и соответственно. п ( Икс , Y ) {\ displaystyle p _ {(X, Y)}} Икс {\ displaystyle X} Y {\ displaystyle Y} п Икс {\ displaystyle p_ {X}} п Y {\ displaystyle p_ {Y}} Икс {\ displaystyle X} Y {\ displaystyle Y}

С точки зрения PDF-файлов для непрерывных распределений

В случае совместно непрерывных случайных величин двойная сумма заменяется двойным интегралом :

я ( Икс ; Y ) знак равно Y Икс п ( Икс , Y ) ( Икс , у ) бревно ( п ( Икс , Y ) ( Икс , у ) п Икс ( Икс ) п Y ( у ) ) d Икс d у , {\ displaystyle \ operatorname {I} (X; Y) = \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} {p _ {(X, Y)} (x, y) \ log {\ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ {Y} (y)}} \ right)}} \; dx \, dy,}

 

 

 

 

( Уравнение 2)

где теперь совместная вероятность плотность функция и, и, и являются функциями маргинальных плотностей вероятности и соответственно. п ( Икс , Y ) {\ displaystyle p _ {(X, Y)}} Икс {\ displaystyle X} Y {\ displaystyle Y} п Икс {\ displaystyle p_ {X}} п Y {\ displaystyle p_ {Y}} Икс {\ displaystyle X} Y {\ displaystyle Y}

Если используется логическая база 2, единицами взаимной информации являются биты.

Мотивация

Наглядно, взаимной информации измеряет информацию, и доля: Он измеряет, сколько зная одну из этих переменных уменьшает неопределенность относительно другой. Например, если и независимы, то знание не дает никакой информации о и наоборот, поэтому их взаимная информация равна нулю. С другой стороны, if является детерминированной функцией и является детерминированной функцией, тогда вся информация, передаваемая с помощью, совместно используется: знание определяет ценность и наоборот. В результате, в этом случае взаимной информации является таким же, как неопределенность, содержащейся в (или) один, а именно энтропии из (или). Более того, эта взаимная информация совпадает с энтропией и энтропией. (Очень частный случай, когда и являются одной и той же случайной величиной.) Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y} Y {\ displaystyle Y} Икс {\ displaystyle X} Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X} Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y}

Взаимная информация является мерой присущей зависимости, выраженной в совместном распределении по и по отношению к предельному распределению и при предположении о независимости. Таким образом, взаимная информация измеряет зависимость в следующем смысле: тогда и только тогда, когда и являются независимыми случайными величинами. Это легко увидеть в одном направлении: если и независимы, то, следовательно: Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y} я ( Икс ; Y ) знак равно 0 {\ displaystyle \ operatorname {I} (X; Y) = 0} Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y} п ( Икс , Y ) ( Икс , у ) знак равно п Икс ( Икс ) п Y ( у ) {\ displaystyle p _ {(X, Y)} (x, y) = p_ {X} (x) \ cdot p_ {Y} (y)}

бревно ( п ( Икс , Y ) ( Икс , у ) п Икс ( Икс ) п Y ( у ) ) знак равно бревно 1 знак равно 0. {\ displaystyle \ log {\ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ {Y} (y)}} \ right)} = \ log 1 = 0.}

Более того, взаимная информация неотрицательна (т.е. см. Ниже) и симметрична (т.е. см. Ниже). я ( Икс ; Y ) 0 {\ Displaystyle \ OperatorName {I} (X; Y) \ geq 0} я ( Икс ; Y ) знак равно я ( Y ; Икс ) {\ Displaystyle \ OperatorName {I} (X; Y) = \ OperatorName {I} (Y; X)}

Отношение к другим величинам

Неотрицательность

Используя неравенство Дженсена об определении взаимной информации, мы можем показать, что она неотрицательна, т. Е. я ( Икс ; Y ) {\ displaystyle \ operatorname {I} (X; Y)}

я ( Икс ; Y ) 0 {\ Displaystyle \ OperatorName {I} (X; Y) \ geq 0}

Симметрия

я ( Икс ; Y ) знак равно я ( Y ; Икс ) {\ Displaystyle \ OperatorName {I} (X; Y) = \ OperatorName {I} (Y; X)}

Отношение к условной и совместной энтропии

Взаимная информация может быть эквивалентно выражена как:

я ( Икс ; Y ) ЧАС ( Икс ) - ЧАС ( Икс Y ) ЧАС ( Y ) - ЧАС ( Y Икс ) ЧАС ( Икс ) + ЧАС ( Y ) - ЧАС ( Икс , Y ) ЧАС ( Икс , Y ) - ЧАС ( Икс Y ) - ЧАС ( Y Икс ) {\ displaystyle {\ begin {align} \ operatorname {I} (X; Y) amp; {} \ Equiv \ mathrm {H} (X) - \ mathrm {H} (X \ mid Y) \\ amp; {} \ Equiv \ mathrm {H} (Y) - \ mathrm {H} (Y \ mid X) \\ amp; {} \ Equiv \ mathrm {H} (X) + \ mathrm {H} (Y) - \ mathrm {H } (X, Y) \\ amp; {} \ Equiv \ mathrm {H} (X, Y) - \ mathrm {H} (X \ mid Y) - \ mathrm {H} (Y \ mid X) \ end { выровнено}}}

где и являются предельные энтропии, и являются условные энтропии, и является совместной энтропии из и. ЧАС ( Икс ) {\ Displaystyle \ mathrm {H} (X)} ЧАС ( Y ) {\ Displaystyle \ mathrm {H} (Y)} ЧАС ( Икс Y ) {\ Displaystyle \ mathrm {H} (X \ середина Y)} ЧАС ( Y Икс ) {\ displaystyle \ mathrm {H} (Y \ mid X)} ЧАС ( Икс , Y ) {\ Displaystyle \ mathrm {H} (X, Y)} Икс {\ displaystyle X} Y {\ displaystyle Y}

Обратите внимание на аналогию с объединением, различием и пересечением двух множеств: в этом отношении все приведенные выше формулы очевидны из диаграммы Венна, приведенной в начале статьи.

С точки зрения канала связи, в котором выход является зашумленной версией входа, эти отношения суммированы на рисунке: Y {\ displaystyle Y} Икс {\ displaystyle X}

Связь между теоретическими величинами информации

Поскольку не отрицательно, следовательно,. Здесь мы даем подробный вывод для случая совместно дискретных случайных величин: я ( Икс ; Y ) {\ displaystyle \ operatorname {I} (X; Y)} ЧАС ( Икс ) ЧАС ( Икс Y ) {\ Displaystyle \ mathrm {H} (X) \ geq \ mathrm {H} (X \ mid Y)} я ( Икс ; Y ) знак равно ЧАС ( Y ) - ЧАС ( Y Икс ) {\ Displaystyle \ OperatorName {I} (X; Y) = \ mathrm {H} (Y) - \ mathrm {H} (Y \ mid X)}

я ( Икс ; Y ) знак равно Икс Икс , у Y п ( Икс , Y ) ( Икс , у ) бревно п ( Икс , Y ) ( Икс , у ) п Икс ( Икс ) п Y ( у ) знак равно Икс Икс , у Y п ( Икс , Y ) ( Икс , у ) бревно п ( Икс , Y ) ( Икс , у ) п Икс ( Икс ) - Икс Икс , у Y п ( Икс , Y ) ( Икс , у ) бревно п Y ( у ) знак равно Икс Икс , у Y п Икс ( Икс ) п Y Икс знак равно Икс ( у ) бревно п Y Икс знак равно Икс ( у ) - Икс Икс , у Y п ( Икс , Y ) ( Икс , у ) бревно п Y ( у ) знак равно Икс Икс п Икс ( Икс ) ( у Y п Y Икс знак равно Икс ( у ) бревно п Y Икс знак равно Икс ( у ) ) - у Y ( Икс п ( Икс , Y ) ( Икс , у ) ) бревно п Y ( у ) знак равно - Икс Икс п ( Икс ) ЧАС ( Y Икс знак равно Икс ) - у Y п Y ( у ) бревно п Y ( у ) знак равно - ЧАС ( Y Икс ) + ЧАС ( Y ) знак равно ЧАС ( Y ) - ЧАС ( Y Икс ) . {\ displaystyle {\ begin {align} \ operatorname {I} (X; Y) amp; {} = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p_ {(X, Y)} (x, y) \ log {\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) p_ {Y} (y)}} \ \ amp; {} = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p _ {(X, Y)} (x, y) \ log {\ frac { p _ {(X, Y)} (x, y)} {p_ {X} (x)}} - \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}} } p _ {(X, Y)} (x, y) \ log p_ {Y} (y) \\ amp; {} = \ sum _ {x \ in {\ mathcal {X}}, y \ in {\ mathcal {Y}}} p_ {X} (x) p_ {Y \ mid X = x} (y) \ log p_ {Y \ mid X = x} (y) - \ sum _ {x \ in {\ mathcal {\ mathcal { X}}, y \ in {\ mathcal {Y}}} p _ {(X, Y)} (x, y) \ log p_ {Y} (y) \\ amp; {} = \ sum _ {x \ in {\ mathcal {X}}} p_ {X} (x) \ left (\ sum _ {y \ in {\ mathcal {Y}}} p_ {Y \ mid X = x} (y) \ log p_ {Y) \ mid X = x} (y) \ right) - \ sum _ {y \ in {\ mathcal {Y}}} \ left (\ sum _ {x} p _ {(X, Y)} (x, y) \ right) \ log p_ {Y} (y) \\ amp; {} = - \ sum _ {x \ in {\ mathcal {X}}} p (x) \ mathrm {H} (Y \ mid X = x) - \ sum _ {y \ in {\ mathcal {Y}}} p_ {Y} (y) \ log p_ {Y} (y) \\ amp; {} = - \ mathrm {H} (Y \ mid X) + \ mathrm {H} (Y) \\ amp; {} = \ mathrm {H} (Y) - \ mathrm {H} (Y \ mid X). \\\ конец {выровнено}}}

Доказательства остальных тождеств, приведенных выше, аналогичны. Доказательство общего случая (не только дискретного) аналогично, с интегралами вместо сумм.

Наглядно, если энтропия рассматривается как мера неопределенности относительно случайной величины, то есть мера того, что вовсе не говорит о. Это «величина неопределенности, остающаяся примерно после того, как известна», и, таким образом, правая часть второго из этих равенств может быть прочитана как «величина неопределенности, минус величина неопределенности, которая остается после того, как известна», что эквивалентно «степени неопределенности, устраняемой знанием ». Это подтверждает интуитивное значение взаимной информации как количества информации (то есть уменьшения неопределенности), которую знание одной переменной дает о другой. ЧАС ( Y ) {\ Displaystyle \ mathrm {H} (Y)} ЧАС ( Y Икс ) {\ displaystyle \ mathrm {H} (Y \ mid X)} Икс {\ displaystyle X} Y {\ displaystyle Y} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y} Y {\ displaystyle Y} Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X}

Обратите внимание, что в дискретном случае и поэтому. Таким образом, можно сформулировать основной принцип, согласно которому переменная содержит, по крайней мере, столько же информации о себе, сколько может предоставить любая другая переменная. ЧАС ( Y Y ) знак равно 0 {\ Displaystyle \ mathrm {H} (Y \ середина Y) = 0} ЧАС ( Y ) знак равно я ( Y ; Y ) {\ Displaystyle \ mathrm {H} (Y) = \ OperatorName {I} (Y; Y)} я ( Y ; Y ) я ( Икс ; Y ) {\ Displaystyle \ OperatorName {I} (Y; Y) \ geq \ OperatorName {I} (X; Y)}

Связь с расходимостью Кульбака – Лейблера

Для совместного дискретного или непрерывного совместно пара, взаимная информация является Кульбак-Либлер дивергенция от произведения маргинальных распределений,, из совместного распределения, то есть, ( Икс , Y ) {\ displaystyle (X, Y)} п Икс п Y {\ displaystyle p_ {X} \ cdot p_ {Y}} п ( Икс , Y ) {\ displaystyle p _ {(X, Y)}}

я ( Икс ; Y ) знак равно D KL ( п ( Икс , Y ) п Икс п Y ) {\ displaystyle \ operatorname {I} (X; Y) = D _ {\ text {KL}} \ left (p _ {(X, Y)} \ parallel p_ {X} p_ {Y} \ right)}

Кроме того, пусть будет условной функцией массы или плотности. Тогда у нас есть тождество п Икс Y знак равно у ( Икс ) знак равно п ( Икс , Y ) ( Икс , у ) / п Y ( у ) {\ displaystyle p_ {X \ mid Y = y} (x) = p _ {(X, Y)} (x, y) / p_ {Y} (y)}

я ( Икс ; Y ) знак равно E Y [ D KL ( п Икс Y п Икс ) ] {\ displaystyle \ operatorname {I} (X; Y) = \ mathbb {E} _ {Y} \ left [D _ {\ text {KL}} \! \ left (p_ {X \ mid Y} \ parallel p_ { X} \ right) \ right]}

Доказательство для совместно дискретных случайных величин выглядит следующим образом:

я ( Икс ; Y ) знак равно у Y Икс Икс п ( Икс , Y ) ( Икс , у ) бревно ( п ( Икс , Y ) ( Икс , у ) п Икс ( Икс ) п Y ( у ) ) знак равно у Y Икс Икс п Икс Y знак равно у ( Икс ) п Y ( у ) бревно п Икс Y знак равно у ( Икс ) п Y ( у ) п Икс ( Икс ) п Y ( у ) знак равно у Y п Y ( у ) Икс Икс п Икс Y знак равно у ( Икс ) бревно п Икс Y знак равно у ( Икс ) п Икс ( Икс ) знак равно у Y п Y ( у ) D KL ( п Икс Y знак равно у п Икс ) знак равно E Y [ D KL ( п Икс Y п Икс ) ] . {\ displaystyle {\ begin {align} \ operatorname {I} (X; Y) amp; = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}} } {p _ {(X, Y)} (x, y) \ log \ left ({\ frac {p _ {(X, Y)} (x, y)} {p_ {X} (x) \, p_ { Y} (y)}} \ right)} \\ amp; = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}}} p_ {X \ mid Y = y} (x) p_ {Y} (y) \ log {\ frac {p_ {X \ mid Y = y} (x) p_ {Y} (y)} {p_ {X} (x) p_ { Y} (y)}} \\ amp; = \ sum _ {y \ in {\ mathcal {Y}}} p_ {Y} (y) \ sum _ {x \ in {\ mathcal {X}}} p_ { X \ mid Y = y} (x) \ log {\ frac {p_ {X \ mid Y = y} (x)} {p_ {X} (x)}} \\ amp; = \ sum _ {y \ in {\ mathcal {Y}}} p_ {Y} (y) \; D _ {\ text {KL}} \! \ left (p_ {X \ mid Y = y} \ parallel p_ {X} \ right) \\ amp; = \ mathbb {E} _ {Y} \ left [D _ {\ text {KL}} \! \ left (p_ {X \ mid Y} \ parallel p_ {X} \ right) \ right]. \ end { выровнено}}}

Аналогичным образом это тождество может быть установлено для совместно непрерывных случайных величин.

Обратите внимание, что здесь дивергенция Кульбака – Лейблера включает интегрирование только по значениям случайной величины, а выражение по- прежнему обозначает случайную величину, поскольку оно является случайным. Таким образом, взаимная информация также может быть понята как ожидание в Кульбаке-Лейблере расходимости однофакторного распределения из от условного распределения в дали: чем больше разные распределения и в среднем, тем больше информации усиление. Икс {\ displaystyle X} D KL ( п Икс Y п Икс ) {\ displaystyle D _ {\ text {KL}} (p_ {X \ mid Y} \ parallel p_ {X})} Y {\ displaystyle Y} п Икс {\ displaystyle p_ {X}} Икс {\ displaystyle X} п Икс Y {\ displaystyle p_ {X \ mid Y}} Икс {\ displaystyle X} Y {\ displaystyle Y} п Икс Y {\ displaystyle p_ {X \ mid Y}} п Икс {\ displaystyle p_ {X}}

Байесовская оценка взаимной информации

Если доступны выборки из совместного распределения, можно использовать байесовский подход для оценки взаимной информации этого распределения. Первой такой работой, которая также показала, как выполнять байесовскую оценку многих других теоретико-информационных свойств, помимо взаимной информации, была. Последующие исследователи переработали и расширили этот анализ. См. Недавнюю статью, основанную на предыдущем, специально разработанном для оценки взаимной информации как таковой. Кроме того, недавно в. Y {\ displaystyle Y}

Допущения независимости

Формулировка взаимной информации о расхождении Кульбака-Лейблера основана на том, что каждый заинтересован в сравнении с полностью факторизованным внешним продуктом. Во многих задачах, таких как факторизация неотрицательной матрицы, интересуют менее экстремальные факторизации; в частности, кто-то желает сравнить с приближением матрицы низкого ранга по некоторой неизвестной переменной ; то есть, в какой степени можно было п ( Икс , у ) {\ Displaystyle р (х, у)} п ( Икс ) п ( у ) {\ Displaystyle р (х) \ CDOT р (у)} п ( Икс , у ) {\ Displaystyle р (х, у)} ш {\ displaystyle w}

п ( Икс , у ) ш п ( Икс , ш ) п ( ш , у ) {\ Displaystyle р (х, у) \ приблизительно \ сумма _ {ш} р ^ {\ простое число} (х, ш) п ^ {\ простое \ простое число} (ш, у)}

С другой стороны, может быть интересно узнать, сколько еще информации переносит его факторизация. В таком случае избыточная информация, которую полное распределение переносит через матричную факторизацию, дается дивергенцией Кульбака-Лейблера п ( Икс , у ) {\ Displaystyle р (х, у)} п ( Икс , у ) {\ Displaystyle р (х, у)}

я L р M А знак равно у Y Икс Икс п ( Икс , у ) бревно ( п ( Икс , у ) ш п ( Икс , ш ) п ( ш , у ) ) , {\ displaystyle \ operatorname {I} _ {LRMA} = \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in {\ mathcal {X}}} {p (x, y) \ log {\ left ({\ frac {p (x, y)} {\ sum _ {w} p ^ {\ prime} (x, w) p ^ {\ prime \ prime} (w, y)}}) \Правильно)}},}

Традиционное определение взаимной информации восстанавливается в крайнем случае, когда процесс имеет только одно значение. W {\ displaystyle W} ш {\ displaystyle w}

Вариации

Было предложено несколько вариантов взаимной информации для удовлетворения различных потребностей. Среди них - нормализованные варианты и обобщения для более чем двух переменных.

Метрическая

Многие приложения требуют метрики, то есть меры расстояния между парами точек. Количество

d ( Икс , Y ) знак равно ЧАС ( Икс , Y ) - я ( Икс ; Y ) знак равно ЧАС ( Икс ) + ЧАС ( Y ) - 2 я ( Икс ; Y ) знак равно ЧАС ( Икс Y ) + ЧАС ( Y Икс ) {\ Displaystyle {\ begin {выровнен} d (X, Y) amp; = \ mathrm {H} (X, Y) - \ operatorname {I} (X; Y) \\ amp; = \ mathrm {H} (X) + \ mathrm {H} (Y) -2 \ operatorname {I} (X; Y) \\ amp; = \ mathrm {H} (X \ mid Y) + \ mathrm {H} (Y \ mid X) \ end {выровнено}}}

удовлетворяет свойствам метрики ( неравенство треугольника, неотрицательность, неразличимость и симметрия). Этот показатель расстояния также известен как изменение информации.

Если это дискретные случайные величины, тогда все члены энтропии неотрицательны, поэтому можно определить нормализованное расстояние Икс , Y {\ displaystyle X, Y} 0 d ( Икс , Y ) ЧАС ( Икс , Y ) {\ Displaystyle 0 \ Leq d (X, Y) \ Leq \ mathrm {H} (X, Y)}

D ( Икс , Y ) знак равно d ( Икс , Y ) ЧАС ( Икс , Y ) 1. {\ Displaystyle D (X, Y) = {\ frac {d (X, Y)} {\ mathrm {H} (X, Y)}} \ leq 1.}

Метрика - универсальная метрика, в том смысле, что если какое-либо другое расстояние измеряет место и близко, то он также будет судить о них близко. D {\ displaystyle D} Икс {\ displaystyle X} Y {\ displaystyle Y} D {\ displaystyle D}

Добавление определений показывает, что

D ( Икс , Y ) знак равно 1 - я ( Икс ; Y ) ЧАС ( Икс , Y ) . {\ displaystyle D (X, Y) = 1 - {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X, Y)}}.}

В теоретико-множественной интерпретации информации (см. Рисунок для условной энтропии ) это фактически расстояние Жаккара между и. Икс {\ displaystyle X} Y {\ displaystyle Y}

Наконец-то,

D ( Икс , Y ) знак равно 1 - я ( Икс ; Y ) Максимум { ЧАС ( Икс ) , ЧАС ( Y ) } {\ displaystyle D ^ {\ prime} (X, Y) = 1 - {\ frac {\ operatorname {I} (X; Y)} {\ max \ left \ {\ mathrm {H} (X), \ mathrm {H} (Y) \ right \}}}}

также является метрикой.

Условная взаимная информация

Основная статья: Условная взаимная информация

Иногда полезно выразить взаимную информацию двух случайных величин, обусловленную третьей.

я ( Икс ; Y | Z ) знак равно E Z [ D K L ( п ( Икс , Y ) | Z п Икс | Z п Y | Z ) ] {\ displaystyle \ operatorname {I} (X; Y | Z) = \ mathbb {E} _ {Z} [D _ {\ mathrm {KL}} (P _ {(X, Y) | Z} \ | P_ {X | Z} \ время P_ {Y | Z})]}

Для совместно дискретных случайных величин это принимает вид

я ( Икс ; Y | Z ) знак равно z Z у Y Икс Икс п Z ( z ) п Икс , Y | Z ( Икс , у | z ) бревно [ п Икс , Y | Z ( Икс , у | z ) п Икс | Z ( Икс | z ) п Y | Z ( у | z ) ] , {\ displaystyle \ operatorname {I} (X; Y | Z) = \ sum _ {z \ in {\ mathcal {Z}}} \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ { х \ in {\ mathcal {X}}} {p_ {Z} (z) \, p_ {X, Y | Z} (x, y | z) \ log \ left [{\ frac {p_ {X, Y | Z} (x, y | z)} {p_ {X | Z} \, (x | z) p_ {Y | Z} (y | z)}} \ right]},}

который можно упростить как

я ( Икс ; Y | Z ) знак равно z Z у Y Икс Икс п Икс , Y , Z ( Икс , у , z ) бревно п Икс , Y , Z ( Икс , у , z ) п Z ( z ) п Икс , Z ( Икс , z ) п Y , Z ( у , z ) . {\ displaystyle \ operatorname {I} (X; Y | Z) = \ sum _ {z \ in {\ mathcal {Z}}} \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ { x \ in {\ mathcal {X}}} p_ {X, Y, Z} (x, y, z) \ log {\ frac {p_ {X, Y, Z} (x, y, z) p_ {Z) } (z)} {p_ {X, Z} (x, z) p_ {Y, Z} (y, z)}}.}.}

Для совместно непрерывных случайных величин это принимает вид

я ( Икс ; Y | Z ) знак равно Z Y Икс п Z ( z ) п Икс , Y | Z ( Икс , у | z ) бревно [ п Икс , Y | Z ( Икс , у | z ) п Икс | Z ( Икс | z ) п Y | Z ( у | z ) ] d Икс d у d z , {\ displaystyle \ operatorname {I} (X; Y | Z) = \ int _ {\ mathcal {Z}} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} {p_ {Z } (z) \, p_ {X, Y | Z} (x, y | z) \ log \ left [{\ frac {p_ {X, Y | Z} (x, y | z)} {p_ {X | Z} \, (x | z) p_ {Y | Z} (y | z)}} \ right]} dxdydz,}

который можно упростить как

я ( Икс ; Y | Z ) знак равно Z Y Икс п Икс , Y , Z ( Икс , у , z ) бревно п Икс , Y , Z ( Икс , у , z ) п Z ( z ) п Икс , Z ( Икс , z ) п Y , Z ( у , z ) d Икс d у d z . {\ displaystyle \ operatorname {I} (X; Y | Z) = \ int _ {\ mathcal {Z}} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} p_ {X, Y, Z} (x, y, z) \ log {\ frac {p_ {X, Y, Z} (x, y, z) p_ {Z} (z)} {p_ {X, Z} (x, z) p_ {Y, Z} (y, z)}} dxdydz.}

Использование третьей случайной величины может увеличивать или уменьшать взаимную информацию, но всегда верно, что

я ( Икс ; Y | Z ) 0 {\ Displaystyle \ OperatorName {I} (X; Y | Z) \ geq 0}

для дискретных, совместно распределенных случайных величин. Этот результат был использован в качестве основного строительного блока для доказательства других неравенств в теории информации. Икс , Y , Z {\ displaystyle X, Y, Z}

Информация о взаимодействии

Основная статья: Информация о взаимодействии

Было предложено несколько обобщений взаимной информации для более чем двух случайных величин, таких как полная корреляция (или мультиинформационная) и двойная полная корреляция. Выражение и изучение многомерной взаимной информации более высокой степени было достигнуто в двух, казалось бы, независимых работах: МакГилл (1954), который назвал эти функции «информацией о взаимодействии», и Ху Куо Тинг (1962). Информация о взаимодействии определяется для одной переменной следующим образом:

я ( Икс 1 ) знак равно ЧАС ( Икс 1 ) {\ Displaystyle \ OperatorName {I} (X_ {1}) = \ mathrm {H} (X_ {1})}

и для п gt; 1 , {\ displaystyle ngt; 1,}

я ( Икс 1 ; . . . ; Икс п ) знак равно я ( Икс 1 ; . . . ; Икс п - 1 ) - я ( Икс 1 ; . . . ; Икс п - 1 Икс п ) . {\ displaystyle \ operatorname {I} (X_ {1}; \,... \,; X_ {n}) = \ operatorname {I} (X_ {1}; \,... \,; X_ {n -1}) - \ operatorname {I} (X_ {1}; \,... \,; X_ {n-1} \ mid X_ {n}).}

Некоторые авторы меняют порядок членов в правой части предыдущего уравнения, которое меняет знак, когда количество случайных величин нечетное. (И в этом случае выражение с одной переменной становится отрицательным значением энтропии.) Обратите внимание, что

я ( Икс 1 ; ; Икс п - 1 Икс п ) знак равно E Икс п [ D K L ( п ( Икс 1 , , Икс п - 1 ) Икс п п Икс 1 Икс п п Икс п - 1 Икс п ) ] . {\ displaystyle I (X_ {1}; \ ldots; X_ {n-1} \ mid X_ {n}) = \ mathbb {E} _ {X_ {n}} [D _ {\ mathrm {KL}} (P_ {(X_ {1}, \ ldots, X_ {n-1}) \ mid X_ {n}} \ | P_ {X_ {1} \ mid X_ {n}} \ otimes \ cdots \ otimes P_ {X_ {n -1} \ mid X_ {n}})].}

Многомерная статистическая независимость

Многомерные функции взаимной информации обобщают случай парной независимости, который утверждает, что если и только если, на произвольные многочисленные переменные. n переменных взаимно независимы тогда и только тогда, когда функции взаимной информации обращаются в нуль при (теорема 2). В этом смысле можно использовать как уточненный критерий статистической независимости. Икс 1 , Икс 2 {\ Displaystyle X_ {1}, X_ {2}} я ( Икс 1 ; Икс 2 ) знак равно 0 {\ Displaystyle I (X_ {1}; X_ {2}) = 0} 2 п - п - 1 {\ displaystyle 2 ^ {n} -n-1} я ( Икс 1 ; ; Икс k ) знак равно 0 {\ Displaystyle I (X_ {1}; \ ldots; X_ {k}) = 0} п k 2 {\ Displaystyle п \ geq к \ geq 2} я ( Икс 1 ; ; Икс k ) знак равно 0 {\ Displaystyle I (X_ {1}; \ ldots; X_ {k}) = 0}

Приложения

Для 3 переменных Brenner et al. применили многомерную взаимную информацию к нейронному кодированию и назвали его отрицательность «синергизмом», а Watkinson et al. применил это к генетической экспрессии. Для произвольных k переменных Tapia et al. применили многомерную взаимную информацию к экспрессии генов). Он может быть нулевым, положительным или отрицательным. Позитивность соответствует отношениям, обобщающим попарные корреляции, нулевое значение соответствует уточненному понятию независимости, а отрицательность обнаруживает многомерные «возникающие» отношения и кластеризованные точки данных).

Одна многомерная схема обобщения, которая максимизирует взаимную информацию между совместным распределением и другими целевыми переменными, оказывается полезной при выборе признаков.

Взаимная информация также используется в области обработки сигналов как мера сходства между двумя сигналами. Например, показатель FMI - это показатель эффективности слияния изображений, который использует взаимную информацию для измерения количества информации, которую слитое изображение содержит об исходных изображениях. Код Matlab для этой метрики можно найти по адресу. Доступен пакет python для вычисления всей многомерной взаимной информации, условной взаимной информации, совместных энтропий, общих корреляций, информационного расстояния в наборе данных из n переменных.

Направленная информация

Направленная информация,, измеряет количество информации, которое вытекает из процесса к, где обозначает вектор и обозначает. Термин направленная информация был введен Джеймсом Мэсси и определяется как я ( Икс п Y п ) {\ displaystyle \ operatorname {I} \ left (X ^ {n} \ to Y ^ {n} \ right)} Икс п {\ displaystyle X ^ {n}} Y п {\ displaystyle Y ^ {n}} Икс п {\ displaystyle X ^ {n}} Икс 1 , Икс 2 , . . . , Икс п {\ displaystyle X_ {1}, X_ {2},..., X_ {n}} Y п {\ displaystyle Y ^ {n}} Y 1 , Y 2 , . . . , Y п {\ displaystyle Y_ {1}, Y_ {2},..., Y_ {n}}

я ( Икс п Y п ) знак равно я знак равно 1 п я ( Икс я ; Y я Y я - 1 ) {\ displaystyle \ operatorname {I} \ left (X ^ {n} \ to Y ^ {n} \ right) = \ sum _ {i = 1} ^ {n} \ operatorname {I} \ left (X ^ { i}; Y_ {i} \ mid Y ^ {i-1} \ right)}.

Обратите внимание, что если, направленная информация становится взаимной информацией. Направленная информация имеет множество применений в задачах, где причинно-следственная связь играет важную роль, таких как пропускная способность канала с обратной связью. п знак равно 1 {\ displaystyle n = 1}

Нормализованные варианты

Нормализованные варианты взаимной информации представлены коэффициентами ограничения, коэффициента неопределенности или квалификации:

C Икс Y знак равно я ( Икс ; Y ) ЧАС ( Y )         а также         C Y Икс знак равно я ( Икс ; Y ) ЧАС ( Икс ) . {\ displaystyle C_ {XY} = {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (Y)}} ~~~~ {\ t_dv {and}} ~~~~ C_ {YX} = {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X)}}.}.

Два коэффициента имеют значение в диапазоне [0, 1], но не обязательно равны. В некоторых случаях может потребоваться симметричная мера, например следующая мера избыточности :

р знак равно я ( Икс ; Y ) ЧАС ( Икс ) + ЧАС ( Y ) {\ Displaystyle R = {\ гидроразрыва {\ OperatorName {I} (X; Y)} {\ mathrm {H} (X) + \ mathrm {H} (Y)}}}

который достигает минимум нуля, когда переменные независимы, и максимальное значение

р Максимум знак равно мин { ЧАС ( Икс ) , ЧАС ( Y ) } ЧАС ( Икс ) + ЧАС ( Y ) {\ displaystyle R _ {\ max} = {\ frac {\ min \ left \ {\ mathrm {H} (X), \ mathrm {H} (Y) \ right \}} {\ mathrm {H} (X) + \ mathrm {H} (Y)}}}

когда одна переменная становится полностью избыточной при знании другой. См. Также Резервирование (теория информации).

Другой симметричной мерой является симметричная неопределенность ( Witten amp; Frank 2005), определяемая формулой

U ( Икс , Y ) знак равно 2 р знак равно 2 я ( Икс ; Y ) ЧАС ( Икс ) + ЧАС ( Y ) {\ Displaystyle U (X, Y) = 2R = 2 {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X) + \ mathrm {H} (Y)}}}

который представляет собой среднее гармоническое значение двух коэффициентов неопределенности. C Икс Y , C Y Икс {\ displaystyle C_ {XY}, C_ {YX}}

Если мы рассматриваем взаимную информацию как частный случай полной корреляции или двойной полной корреляции, нормализованная версия, соответственно,

я ( Икс ; Y ) мин [ ЧАС ( Икс ) , ЧАС ( Y ) ] {\ displaystyle {\ frac {\ operatorname {I} (X; Y)} {\ min \ left [\ mathrm {H} (X), \ mathrm {H} (Y) \ right]}}} а также я ( Икс ; Y ) ЧАС ( Икс , Y ) . {\ displaystyle {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} (X, Y)}} \ ;.}

Эта нормализованная версия, также известная как Коэффициент качества информации (IQR), которая определяет количество информации переменной на основе другой переменной в сравнении с общей неопределенностью:

я Q р ( Икс , Y ) знак равно E [ я ( Икс ; Y ) ] знак равно я ( Икс ; Y ) ЧАС ( Икс , Y ) знак равно Икс Икс у Y п ( Икс , у ) бревно п ( Икс ) п ( у ) Икс Икс у Y п ( Икс , у ) бревно п ( Икс , у ) - 1 {\ displaystyle IQR (X, Y) = \ operatorname {E} [\ operatorname {I} (X; Y)] = {\ frac {\ operatorname {I} (X; Y)} {\ mathrm {H} ( X, Y)}} = {\ frac {\ sum _ {x \ in X} \ sum _ {y \ in Y} p (x, y) \ log {p (x) p (y)}} {\ sum _ {x \ in X} \ sum _ {y \ in Y} p (x, y) \ log {p (x, y)}}} - 1}

Существует нормализация, которая происходит из первого представления о взаимной информации как о аналоге ковариации (таким образом, энтропия Шеннона аналогична дисперсии ). Затем вычисляется нормализованная взаимная информация по аналогии с коэффициентом корреляции Пирсона,

я ( Икс ; Y ) ЧАС ( Икс ) ЧАС ( Y ) . {\ displaystyle {\ frac {\ operatorname {I} (X; Y)} {\ sqrt {\ mathrm {H} (X) \ mathrm {H} (Y)}}} \ ;.}

Взвешенные варианты

В традиционной формулировке взаимной информации,

я ( Икс ; Y ) знак равно у Y Икс Икс п ( Икс , у ) бревно п ( Икс , у ) п ( Икс ) п ( у ) , {\ Displaystyle \ OperatorName {I} (X; Y) = \ sum _ {y \ in Y} \ sum _ {x \ in X} p (x, y) \ log {\ frac {p (x, y) } {p (x) \, p (y)}},}

каждое событие или объект, указанные в, взвешиваются по соответствующей вероятности. Это предполагает, что все объекты или события эквивалентны, за исключением вероятности их возникновения. Однако в некоторых приложениях может случиться так, что одни объекты или события более значимы, чем другие, или что определенные шаблоны ассоциации более семантически важны, чем другие. ( Икс , у ) {\ Displaystyle (х, у)} п ( Икс , у ) {\ Displaystyle р (х, у)}

Например, детерминированное отображение можно рассматривать как более сильное, чем детерминированное отображение, хотя эти отношения дадут ту же взаимную информацию. Это связано с тем, что взаимная информация вообще не чувствительна к какому-либо внутреннему порядку в значениях переменных ( Cronbach 1954, Coombs, Dawes amp; Tversky 1970, Lockhead 1970) и, следовательно, не чувствительна вообще к форме реляционного отображения между связанные переменные. Если желательно, чтобы первое отношение, показывающее согласие по всем значениям переменных, было более сильным, чем более позднее, можно использовать следующую взвешенную взаимную информацию ( Guiasu 1977). { ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 3 ) } {\ Displaystyle \ {(1,1), (2,2), (3,3) \}} { ( 1 , 3 ) , ( 2 , 1 ) , ( 3 , 2 ) } {\ Displaystyle \ {(1,3), (2,1), (3,2) \}}

я ( Икс ; Y ) знак равно у Y Икс Икс ш ( Икс , у ) п ( Икс , у ) бревно п ( Икс , у ) п ( Икс ) п ( у ) , {\ displaystyle \ operatorname {I} (X; Y) = \ sum _ {y \ in Y} \ sum _ {x \ in X} w (x, y) p (x, y) \ log {\ frac { p (x, y)} {p (x) \, p (y)}},}

который придает вес вероятности одновременного появления каждого значения переменной. Это допускает, что определенные вероятности могут иметь большее или меньшее значение, чем другие, тем самым позволяя количественную оценку соответствующих холистических факторов или факторов Прэгнанца. В приведенном выше примере использование больших относительных весов для, и будет иметь эффект оценки большей информативности отношения, чем отношения, что может быть желательно в некоторых случаях распознавания образов и т.п. Эта взвешенная взаимная информация является формой взвешенной KL-дивергенции, которая, как известно, принимает отрицательные значения для некоторых входных данных, и есть примеры, когда взвешенная взаимная информация также принимает отрицательные значения. ш ( Икс , у ) {\ Displaystyle ш (х, у)} п ( Икс , у ) {\ Displaystyle р (х, у)} ш ( 1 , 1 ) {\ Displaystyle ш (1,1)} ш ( 2 , 2 ) {\ Displaystyle ш (2,2)} ш ( 3 , 3 ) {\ Displaystyle ш (3,3)} { ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 3 ) } {\ Displaystyle \ {(1,1), (2,2), (3,3) \}} { ( 1 , 3 ) , ( 2 , 1 ) , ( 3 , 2 ) } {\ Displaystyle \ {(1,3), (2,1), (3,2) \}}

Скорректированная взаимная информация

Основная статья: скорректированная взаимная информация

Распределение вероятностей можно рассматривать как разбиение множества. Тогда можно спросить: если бы множество было разбито случайным образом, каким было бы распределение вероятностей? Какова ожидаемая ценность взаимной информации? Регулируется взаимной информации или AMI вычитает среднее значение МИ, так что АМИ равен нулю, когда два различных распределения являются случайными, и один, когда два распределения одинаковы. AMI определяется по аналогии со скорректированным индексом Rand двух разных разделов набора.

Абсолютная взаимная информация

Используя идеи колмогоровской сложности, можно рассматривать взаимную информацию двух последовательностей независимо от какого-либо распределения вероятностей:

я K ( Икс ; Y ) знак равно K ( Икс ) - K ( Икс Y ) . {\ displaystyle \ operatorname {I} _ {K} (X; Y) = K (X) -K (X \ mid Y).}

Чтобы установить, что эта величина симметрична с точностью до логарифмического множителя (), требуется цепное правило для сложности Колмогорова ( Li amp; Vitányi 1997). Аппроксимация этой величины посредством сжатия может использоваться для определения меры расстояния для выполнения иерархической кластеризации последовательностей без знания какой-либо предметной области последовательностей ( Cilibrasi amp; Vitányi 2005). я K ( Икс ; Y ) я K ( Y ; Икс ) {\ Displaystyle \ OperatorName {I} _ {K} (X; Y) \ приблизительно \ OperatorName {I} _ {K} (Y; X)}

Линейная корреляция

В отличие от коэффициентов корреляции, таких как коэффициент корреляции момента продукта, взаимная информация содержит информацию обо всех зависимостях - линейных и нелинейных, - а не только о линейных зависимостях, как измеряет коэффициент корреляции. Однако в узком случае, когда совместное распределение для и является двумерным нормальным распределением (подразумевая, в частности, что оба предельных распределения нормально распределены), существует точная связь между коэффициентом корреляции и ( Гельфанд и Яглом, 1957). Икс {\ displaystyle X} Y {\ displaystyle Y} я {\ displaystyle \ operatorname {I}} ρ {\ displaystyle \ rho}

я знак равно - 1 2 бревно ( 1 - ρ 2 ) {\ displaystyle \ operatorname {I} = - {\ frac {1} {2}} \ log \ left (1- \ rho ^ {2} \ right)}

Приведенное выше уравнение может быть получено следующим образом для двумерной гауссианы:

( Икс 1 Икс 2 ) N ( ( μ 1 μ 2 ) , Σ ) , Σ знак равно ( σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ) ЧАС ( Икс я ) знак равно 1 2 бревно ( 2 π е σ я 2 ) знак равно 1 2 + 1 2 бревно ( 2 π ) + бревно ( σ я ) , я { 1 , 2 } ЧАС ( Икс 1 , Икс 2 ) знак равно 1 2 бревно [ ( 2 π е ) 2 | Σ | ] знак равно 1 + бревно ( 2 π ) + бревно ( σ 1 σ 2 ) + 1 2 бревно ( 1 - ρ 2 ) {\ displaystyle {\ begin {align} {\ begin {pmatrix} X_ {1} \\ X_ {2} \ end {pmatrix}} amp; \ sim {\ mathcal {N}} \ left ({\ begin {pmatrix} \ mu _ {1} \\\ mu _ {2} \ end {pmatrix}}, \ Sigma \ right), \ qquad \ Sigma = {\ begin {pmatrix} \ sigma _ {1} ^ {2} amp; \ rho \ sigma _ {1} \ sigma _ {2} \\\ rho \ sigma _ {1} \ sigma _ {2} amp; \ sigma _ {2} ^ {2} \ end {pmatrix}} \\\ mathrm {H} (X_ {i}) amp; = {\ frac {1} {2}} \ log \ left (2 \ pi e \ sigma _ {i} ^ {2} \ right) = {\ frac {1} {2}} + {\ frac {1} {2}} \ log (2 \ pi) + \ log \ left (\ sigma _ {i} \ right), \ quad i \ in \ {1,2 \} \\\ mathrm {H} (X_ {1}, X_ {2}) amp; = {\ frac {1} {2}} \ log \ left [(2 \ pi e) ^ {2} | \ Sigma | \ right] = 1 + \ log (2 \ pi) + \ log \ left (\ sigma _ {1} \ sigma _ {2} \ right) + {\ frac {1} {2}} \ log \ left (1 - \ rho ^ {2} \ right) \\\ конец {выровнено}}}

Следовательно,

я ( Икс 1 ; Икс 2 ) знак равно ЧАС ( Икс 1 ) + ЧАС ( Икс 2 ) - ЧАС ( Икс 1 , Икс 2 ) знак равно - 1 2 бревно ( 1 - ρ 2 ) {\ displaystyle \ operatorname {I} \ left (X_ {1}; X_ {2} \ right) = \ mathrm {H} \ left (X_ {1} \ right) + \ mathrm {H} \ left (X_ { 2} \ right) - \ mathrm {H} \ left (X_ {1}, X_ {2} \ right) = - {\ frac {1} {2}} \ log \ left (1- \ rho ^ {2 }\Правильно)}

Для дискретных данных

Когда и ограничены дискретным числом состояний, данные наблюдений суммируются в таблице непредвиденных обстоятельств с переменной строки (или) и переменной столбца (или). Взаимная информация - это одна из мер связи или корреляции между переменными строки и столбца. Другие меры ассоциации включают статистику критерия хи-квадрат Пирсона, статистику G-критерия и т. Д. Фактически, взаимная информация равна статистике G-критерия, деленной на, где - размер выборки. Икс {\ displaystyle X} Y {\ displaystyle Y} Икс {\ displaystyle X} я {\ displaystyle i} Y {\ displaystyle Y} j {\ displaystyle j} 2 N {\ displaystyle 2N} N {\ displaystyle N}

Приложения

Во многих приложениях требуется максимизировать взаимную информацию (таким образом, увеличивая зависимости), что часто эквивалентно минимизации условной энтропии. Примеры включают:

  • В технологии поисковых машин взаимная информация между фразами и контекстами используется в качестве функции кластеризации k-средних для обнаружения семантических кластеров (концептов). Например, взаимная информация биграммы может быть вычислена как:

M я ( Икс , у ) знак равно бревно п Икс , Y ( Икс , у ) п Икс ( Икс ) п Y ( у ) бревно ж Икс Y B ж Икс U ж Y U {\ displaystyle MI (x, y) = \ log {\ frac {P_ {X, Y} (x, y)} {P_ {X} (x) P_ {Y} (y)}} \ приблизительно \ log { \ frac {\ frac {f_ {XY}} {B}} {{\ frac {f_ {X}} {U}} {\ frac {f_ {Y}} {U}}}}}

где - количество раз, когда биграмма xy появляется в корпусе, - это количество раз, когда униграмма x появляется в корпусе, B - общее количество биграмм, а U - общее количество униграмм. ж Икс Y {\ displaystyle f_ {XY}} ж Икс {\ displaystyle f_ {X}}
Смотрите также
Примечания
  1. ^ Обложка, Томас М.; Томас, Джой А. (2005). Элементы теории информации (PDF). John Wiley amp; Sons, Ltd., стр. 13–55. ISBN   9780471748823.
  2. ^ Креер, JG (1957). «Вопрос терминологии». Сделки IRE по теории информации. 3 (3): 208. DOI : 10,1109 / TIT.1957.1057418.
  3. ^ a b c Крышка, TM; Томас, Дж. А. (1991). Элементы теории информации (ред. Вили). ISBN   978-0-471-24195-9.
  4. ^ Wolpert, DH; Вольф, Д.Р. (1995). «Оценочные функции вероятностных распределений по конечному набору выборок». Physical Review E. 52 (6): 6841–6854. Bibcode : 1995PhRvE..52.6841W. CiteSeerX   10.1.1.55.7122. DOI : 10.1103 / PhysRevE.52.6841. PMID   9964199. S2CID   9795679.
  5. ^ Хуттер, М. (2001). «Распространение взаимной информации». Достижения в системах обработки нейронной информации 2001.
  6. ^ Арчер, E.; Парк, И. М.; Подушка, J. ​​(2013). "Байесовские и квазибайесовские оценки взаимной информации из дискретных данных". Энтропия. 15 (12): 1738–1755. Bibcode : 2013Entrp..15.1738A. CiteSeerX   10.1.1.294.4690. DOI : 10.3390 / e15051738.
  7. ^ Wolpert, DH; ДеДео, С. (2013). «Оценочные функции распределений, определенных в пространствах неизвестного размера». Энтропия. 15 (12): 4668–4699. arXiv : 1311.4548. Bibcode : 2013Entrp..15.4668W. DOI : 10.3390 / e15114668. S2CID   2737117.
  8. ^ Tomasz Jetka; Кароль Ниеналтовски; Томаш Винарский; Славомир Блонски; Михал Коморовский (2019), «Теоретико-информационный анализ многомерных сигнальных ответов отдельных клеток», PLOS Computational Biology, 15 (7): e1007132, arXiv : 1808.05581, Bibcode : 2019PLSCB..15E7132J, doi : 10.1371 / journal.pcbi. 1007132, PMC   6655862, PMID   31299056
  9. ^ Красков, Александр; Штегбауэр, Харальд; Andrzejak, Ralph G.; Грассбергер, Питер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio / 0311039. Bibcode : 2003q.bio.... 11039K. Цитировать журнал требует |journal=( помощь )
  10. Перейти ↑ McGill, W. (1954). «Многомерная передача информации». Психометрика. 19 (1): 97–116. DOI : 10.1007 / BF02289159. S2CID   126431489.
  11. ^ а б Ху, KT (1962). «Об объеме информации». Теория вероятн. Прил. 7 (4): 439–447. DOI : 10.1137 / 1107041.
  12. ^ a b Baudot, P.; Tapia, M.; Bennequin, D.; Гоайярд, Дж. М. (2019). «Анализ топологической информации». Энтропия. 21 (9). 869. arXiv : 1907.04242. Bibcode : 2019Entrp..21..869B. DOI : 10.3390 / e21090869. S2CID   195848308.
  13. ^ Бреннер, N.; Strong, S.; Koberle, R.; Bialek, W. (2000). «Синергия в нейронном коде». Neural Comput. 12 (7): 1531–1552. DOI : 10.1162 / 089976600300015259. PMID   10935917. S2CID   600528.
  14. ^ Watkinson, J.; Liang, K.; Ван, X.; Zheng, T.; Анастасиу, Д. (2009). «Вывод регулятивных взаимодействий генов из данных экспрессии с использованием трехсторонней взаимной информации». Чалл. Syst. Биол. Анна. NY Acad. Sci. 1158 (1): 302–313. Bibcode : 2009NYASA1158..302W. DOI : 10.1111 / j.1749-6632.2008.03757.x. PMID   19348651. S2CID   8846229.
  15. ^ а б Тапиа, М.; Baudot, P.; Формизано-Трезины, Ц.; Dufour, M.; Гоайярд, Дж. М. (2018). «Идентичность нейротрансмиттера и электрофизиологический фенотип генетически связаны в дофаминергических нейронах среднего мозга». Sci. Rep. 8 (1): 13637. Bibcode : 2018NatSR... 813637T. DOI : 10.1038 / s41598-018-31765-Z. PMC   6134142. PMID   30206240.
  16. ^ Кристофер Д. Мэннинг; Прабхакар Рагхаван; Хинрих Шютце (2008). Введение в поиск информации. Издательство Кембриджского университета. ISBN   978-0-521-86571-5.
  17. ^ Haghighat, MBA; Агаголзаде, А.; Сейедараби, Х. (2011). «Неопорный показатель слияния изображений, основанный на взаимной информации о характеристиках изображения». Компьютеры и электротехника. 37 (5): 744–756. DOI : 10.1016 / j.compeleceng.2011.07.012.
  18. ^ «Метрика Feature Mutual Information (FMI) для нереференсного слияния изображений - Обмен файлами - MATLAB Central». www.mathworks.com. Проверено 4 апреля 2018 года.
  19. ^ "InfoTopo: Анализ топологической информации. Глубокое статистическое обучение без учителя и с учителем - Обмен файлами - Github". github.com/pierrebaudot/infotopopy/. Проверено 26 сентября 2020 года.
  20. ^ Мэсси, Джеймс (1990). «Причинно-следственная связь, обратная связь и управляемая информация». Proc. 1990 г. Symp. на Инфо. Чт. и его применение, Waikiki, Гавайи, ноябрь 27-30, 1990. CiteSeerX   10.1.1.36.5688.
  21. ^ Пермутер, Хаим Генри; Вайсман, Цачи; Голдсмит, Андреа Дж. (Февраль 2009 г.). «Конечные каналы с инвариантной во времени детерминированной обратной связью». IEEE Transactions по теории информации. 55 (2): 644–662. arXiv : cs / 0608070. DOI : 10.1109 / TIT.2008.2009849. S2CID   13178.
  22. Перейти ↑ Coombs, Dawes amp; Tversky 1970.
  23. ^ a b Нажмите, WH; Теукольский, С.А.; Феттерлинг, штат Вашингтон; Фланнери, ВР (2007). «Раздел 14.7.3. Условная энтропия и взаимная информация». Числовые рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN   978-0-521-88068-8.
  24. ^ Белый, Джим; Штейнгольд, Сэм; Фурнель, Конни. Метрики производительности для алгоритмов обнаружения групп (PDF). Интерфейс 2004 г.
  25. ^ Виджая, Деди Рахман; Сарно, Риянарто; Зулайка, Энни (2017). «Коэффициент качества информации как новый показатель для выбора материнского вейвлета». Хемометрика и интеллектуальные лабораторные системы. 160: 59–71. DOI : 10.1016 / j.chemolab.2016.11.012.
  26. ^ Штрел, Александр; Гош, Джойдип (2003). «Кластерные ансамбли - структура повторного использования знаний для объединения нескольких разделов» (PDF). Журнал исследований в области машинного обучения. 3: 583–617. DOI : 10.1162 / 153244303321897735.
  27. ^ Kvålseth, TO (1991). «Относительная мера полезной информации: некоторые комментарии». Информационные науки. 56 (1): 35–38. DOI : 10.1016 / 0020-0255 (91) 90022-м.
  28. Перейти ↑ Pocock, A. (2012). Выбор характеристик через совместное правдоподобие (PDF) (Диссертация).
  29. ^ a b Анализ естественного языка с использованием статистики взаимной информации Дэвида М. Магермана и Митчелла П. Маркуса
  30. ^ Хью Эверетт Теория Универсальной волновой функции, Thesis, Принстонский университет (1956, 1973), стр 1-140 (стр 30)
  31. ^ Эверетт, Хью (1957). "Формулировка относительного состояния квантовой механики". Обзоры современной физики. 29 (3): 454–462. Bibcode : 1957RvMP... 29..454E. DOI : 10,1103 / revmodphys.29.454. Архивировано из оригинала на 2011-10-27. Проверено 16 июля 2012.
  32. ^ GlobalMIT в Google Code
  33. ↑ Ли, Се Юн (2021). "Сэмплер Гиббса и вариационный вывод координатного восхождения: теоретико-множественный обзор". Коммуникации в статистике - теория и методы: 1–21. arXiv : 2008.01006. DOI : 10.1080 / 03610926.2021.1921214.
  34. ^ Ключи, Дастин; Холиков, Шукур; Певцов, Алексей А. (февраль 2015). «Применение методов взаимной информации во временной дистанционной гелиосейсмологии». Солнечная физика. 290 (3): 659–671. arXiv : 1501.05597. Bibcode : 2015SoPh..290..659K. DOI : 10.1007 / s11207-015-0650-у. S2CID   118472242.
  35. ^ Инвариантная кластеризация информации для неконтролируемой классификации изображений и сегментации Сюй Цзи, Жоао Энрикес и Андреа Ведальди
использованная литература
Последняя правка сделана 2023-03-27 04:45:28
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте