Информационное содержание

редактировать

В теории информации, информационное содержание, самоинформация, неожиданность или Информация Шеннона - это базовая величина, полученная из вероятности определенного события, происходящего из случайная величина. Его можно рассматривать как альтернативный способ выражения вероятности, очень похожий на шансы или логарифмические шансы, но который имеет особые математические преимущества в контексте теории информации.

Информация Шеннона может интерпретироваться как количественная оценка уровня «неожиданности» конкретного результата. Поскольку это такая базовая величина, она также появляется в нескольких других параметрах настройки, таких как длина сообщения, необходимого для передачи события, при оптимальном кодировании источника случайной величины.

Информация Шеннона тесно связана с теоретической энтропией информации, которая представляет собой ожидаемое значение самоинформации случайной величины, количественно определяющее, насколько удивительной является случайная величина «в среднем». Это средний объем самоинформации, которую наблюдатель ожидал бы получить о случайной величине при ее измерении.

Информационное содержание может быть выражено в различных единицах информации, из которых наиболее распространенным является «бит» (иногда также называемый «шеннон»), как описано ниже.

Содержание
  • 1 Определение
  • 2 Свойства
    • 2.1 Монотонно убывающая функция вероятности
    • 2.2 Связь с логарифмическими шансами
    • 2.3 Аддитивность независимых событий
  • 3 Примечания
  • 4 Примеры
    • 4.1 Честный бросок монеты
    • 4.2 Честный бросок кости
    • 4.3 Два независимых одинаково распределенных кубика
      • 4.3.1 Информация о частоте бросков
      • 4.3.2 Информация о сумме кубиков
    • 4.4 Общее дискретное равномерное распределение
      • 4.4.1 Частный случай: постоянная случайная величина
    • 4.5 Категориальное распределение
  • 5 Связь с энтропией
  • 6 Вывод
  • 7 См. Также
  • 8 Ссылки
  • 9 Далее чтение
  • 10 Внешние ссылки
Определение

Определение самоинформации Клода Шеннона было выбрано для соответствия нескольким аксиомам:

  1. Событие со 100% вероятностью совершенно неудивительно и не дает никакой информации.
  2. Чем менее вероятно событие, тем оно удивительнее и тем больше информации оно дает.
  3. Если два независимых события измеряются отдельно, общий объем информации - это сумма самоинформации отдельных событий.

Подробный вывод приведен ниже, но можно показать, что существует уникальная функция вероятности, которая соответствует этим трем аксиомам, с точностью до мультипликативной коэффициент масштабирования. В широком смысле для события x {\ displaystyle x}xс вероятностью P {\ displaystyle P}Pинформационное содержание определяется следующим образом:

I ⁡ (x): = - log b ⁡ [Pr (x)] = - log b ⁡ (P). {\ displaystyle \ operatorname {I} (x): = - \ log _ {b} {\ left [\ Pr {\ left (x \ right)} \ right]} = - \ log _ {b} {\ left (P \ right)}.}{\displaystyle \operatorname {I} (x):=-\log _{b}{\left[\Pr {\left(x\right)}\right]}=-\log _{b}{\left(P\right)}.}

Основание журнала остается неопределенным, что соответствует коэффициенту масштабирования, указанному выше. Различные варианты основания соответствуют разным единицам информации: если логарифмическое основание равно 2, единица называется «бит » или «шеннон» ; если логарифм является натуральным логарифмом (соответствует основанию числа Эйлера e ≈ 2,7182818284), единица измерения называется «нат», сокращенно от «натуральный» ; и если основание равно 10, единицы называются «хартли», десятичное «цифры» или иногда «точки».

Формально, для случайной величины X {\ displaystyle X}Xс функцией массы вероятности p X (x) {\ displaystyle p_ { X} {\ left (x \ right)}}{\displaystyle p_{X}{\left(x\right)}}, самоинформация измерения X {\ displaystyle X}Xкак результат x {\ displaystyle x}xопределяется как

IX ⁡ (x): = - log ⁡ [p X (x)] = log ⁡ (1 p X (x)). {\ displaystyle \ operatorname {I} _ {X} (x): = - \ log {\ left [p_ {X} {\ left (x \ right)} \ right]} = \ log {\ left ({\ frac {1} {p_ {X} {\ left (x \ right)}}} \ right)}.}{\displaystyle \operatorname {I} _{X}(x):=-\log {\left[p_{X}{\left(x\right)}\right]}=\log {\left({\frac {1}{p_{X}{\left(x\right)}}}\right)}.}

. энтропия Шеннона случайной величины X {\ displaystyle X }Xвыше определяется как

H (X) = ∑ x - p X (x) log ⁡ p X (x) = ∑ xp X (x) IX ⁡ (x) = def E ⁡ [IX ⁡ (X)], {\ displaystyle {\ begin {alignat} {2} \ mathrm {H} (X) = \ sum _ {x} {- p_ {X} {\ left (x \ right)} \ log {p_ {X} {\ left (x \ right)}}} \\ = \ sum _ {x} {p_ {X} {\ left (x \ right)} \ operatorname {I } _ {X} (x)} \\ {\ overset {\ underset {\ mathrm {def}} {}} {=}} \ \ operatorname {E} {\ left [\ operatorname {I} _ {X } (X) \ right]}, \ end {alignat}}}{\displaystyle {\begin{alignedat}{2}\mathrm {H} (X)=\sum _{x}{-p_{X}{\left(x\right)}\log {p_{X}{\left(x\right)}}}\\=\sum _{x}{p_{X}{\left(x\right)}\operatorname {I} _{X}(x)}\\{\overset {\underset {\mathrm {def} }{}}{=}}\ \operatorname {E} {\left[\operatorname {I} _{X}(X)\right]},\end{alignedat}}}

по определению равно ожидаемому информационному содержанию измерения X {\ displaystyle X}X.

Использование нотации IX (x) {\ displaystyle I_ {X} (x)}{\displaystyle I_{X}(x)}для самоинформации выше не универсален. Поскольку запись I (X; Y) {\ displaystyle I (X; Y)}I(X;Y)также часто используется для связанного количества взаимной информации, многие авторы используют строчная h X (x) {\ displaystyle h_ {X} (x)}{\displaystyle h_{X}(x)}вместо самоэнтропии, отражая использование заглавной H (X) {\ displaystyle H ( X)}H(X)для энтропии.

Свойства

Монотонно убывающая функция вероятности

Для заданного вероятностного пространства измерение более редких событий интуитивно более «удивительные» и дают больше информации, чем более общие ценности. Таким образом, самоинформация - это строго убывающая монотонная функция вероятности, или иногда называемая «противотонной» функцией.

Хотя стандартные вероятности представлены действительными числами в интервале [0, 1] {\ displaystyle [0,1]}[0,1], самоинформация представлена ​​расширенными действительными числами в интервале [0, ∞] {\ displaystyle [0, \ infty]}[0,\infty ]. В частности, для любого выбора логарифмического основания у нас есть следующее:

  • Если конкретное событие имеет 100% вероятность наступления, то его самоинформация будет - log ⁡ (1) = 0 {\ displaystyle - \ log (1) = 0}{\displaystyle -\log(1)=0}: его появление "совершенно не удивительно" и не дает никакой информации.
  • Если конкретное событие имеет вероятность возникновения 0%, то его самоинформация - log ⁡ (0) = ∞ {\ displaystyle - \ log (0) = \ infty}{\displaystyle -\log(0)=\infty }: его появление «бесконечно удивительно».

Отсюда мы может получить несколько общих свойств:

Связью с логарифмическими шансами

Информация Шеннона тесно связана с логарифмическими коэффициентами. В частности, для некоторого события x {\ displaystyle x}xпредположим, что p (x) {\ displaystyle p (x)}p(x)- вероятность появления x {\ displaystyle x}x, и что p (¬ x) = 1 - p (x) {\ displaystyle p (\ lnot x) = 1-p (x)}{\displaystyle p(\lnot x)=1-p(x)}- вероятность того, что x {\ displaystyle x}xне произойдет. Тогда мы имеют следующее определение логарифма шансов:

логарифм шансов (x) = журнал ⁡ (p (x) p (¬ x)) {\ displaystyle {\ text {log-odds}} (x) = \ log \ left ({\ frac {p (x)} {p (\ lnot x)}} \ right)}{\displaystyle {\text{log-odds}}(x)=\log \left({\frac {p(x)}{p(\lnot x)}}\right)}

Это может быть выражено как разница двух данных Шеннона:

log-odds (x) = I (¬ x) - I (x) {\ displaystyle {\ text {log-odds}} (x) = I (\ lnot x) -I (x)}{\displaystyle {\text{log-odds}}(x)=I(\lnot x)-I(x)}

Другими словами, l og-odds можно интерпретировать как уровень неожиданности, если событие «не произошло», за вычетом уровня неожиданности, если событие «произойдет».

Аддитивность независимых событий

Информационное содержание двух независимых событий является суммой информационного содержания каждого события. Это свойство известно как аддитивность в математике и сигма-аддитивность, в частности, в мере и теории вероятностей. Рассмотрим две независимые случайные величины X, Y {\ textstyle X, \, Y}{\textstyle X,\,Y}с вероятностно-массовыми функциями p X (x) {\ displaystyle p_ {X} (x)}p_{X}(x)и p Y (y) {\ displaystyle p_ {Y} (y)}{\displaystyle p_{Y}(y)}соответственно. объединенная функция массы вероятности равна

p X, Y (x, y) = Pr (X = x, Y = y) = p X (x) p Y (y) {\ displaystyle p_ {X, Y} \! \ Left (x, y \ right) = \ Pr (X = x, \, Y = y) = p_ {X} \! (X) \, p_ {Y} \! (Y)}{\displaystyle p_{X,Y}\!\left(x,y\right)=\Pr(X=x,\,Y=y)=p_{X}\!(x)\,p_{Y}\!(y)}

, поскольку X {\ textstyle X}{\textstyle X}и Y {\ textstyle Y}{\textstyle Y}независимы. Информационное содержание outcome (X, Y) = (x, y) {\ displaystyle (X, Y) = (x, y)}{\displaystyle (X,Y)=(x,y)}is

IX, Y ⁡ (x, y) = - журнал 2 ⁡ [p X, Y (x, y)] = - журнал 2 ⁡ [p X (x) p Y (y)] = - журнал 2 ⁡ [p X (x)] - журнал 2 ⁡ [п Y (y)] = IX ⁡ (x) + IY ⁡ (y) {\ displaystyle {\ begin {align} \ operatorname {I} _ {X, Y} (x, y) = - \ log _ {2} \ left [p_ {X, Y} (x, y) \ right] = - \ log _ {2} \ left [p_ {X} \! (x) p_ {Y} \! (y) \ right] \\ = - \ log _ {2} \ left [p_ {X} {(x)} \ right] - \ log _ {2} \ left [p_ {Y} {(y)} \ right] \\ = \ operatorname {I} _ {X} (x) + \ operatorname {I} _ {Y} (y) \ end {align}}}{\displaystyle {\begin{aligned}\operatorname {I} _{X,Y}(x,y)=-\log _{2}\left[p_{X,Y}(x,y)\right]=-\log _{2}\left[p_{X}\!(x)p_{Y}\!(y)\right]\\=-\log _{2}\left[p_{X}{(x)}\right]-\log _{2}\left[p_{Y}{(y)}\right]\\=\operatorname {I} _{X}(x)+\operatorname {I} _{Y}(y)\end{aligned}}}См. § Два независимых, идентичных распределенные кости ниже для примера.

Соответствующим свойством для правдоподобий является то, что логарифмическая вероятность независимых событий является суммой логарифмических вероятностей каждого события. Интерпретируя логарифмическую вероятность как «поддержку» или отрицательную неожиданность (степень, в которой событие поддерживает данную модель: модель поддерживается событием в той степени, в которой событие неудивительно для данной модели), это означает, что независимые события добавляют поддержка: информация, которую два события вместе предоставляют для статистического вывода, является суммой их независимой информации.

Примечания

Этот показатель также называют неожиданностью, поскольку он представляет собой «неожиданность » от видения результата (крайне маловероятный результат Очень неожиданно). Этот термин (как мера логарифмической вероятности) был введен Майроном Трибусом в его книге «Термостатика и термодинамика» 1961 года.

Когда событие является случайной реализацией (переменной), самореализация информация переменной определяется как ожидаемое значение самоинформации реализации.

Самоинформация является примером правильного правила подсчета очков.

Примеры

Справедливый бросок монеты

Рассмотрим испытание Бернулли подбрасывать честную монету X {\ displaystyle X}X. вероятности событий выпадения монеты в виде орла H {\ displaystyle H}Hи решки T {\ displaystyle T}T(см. честная монета и аверс и реверс ) равны по половине каждый, p X (H) = p X (T) = 1 2 = 0,5 {\ textstyle p_ {X} {(H)} = p_ {X} {(T)} = {\ tfrac {1} {2}} = 0,5}{\textstyle p_{X}{(H)}=p_{X}{(T)}={\tfrac {1}{2}}=0.5}. После измерения переменной в виде голов, связанное с этим информационное усиление равно

IX ⁡ (H) = - log 2 ⁡ p X (H) = - log 2 1 2 = 1, {\ displaystyle \ operatorname {I} _ {X} (H) = - \ log _ {2} {p_ {X} {(H)}} = - \ log _ {2} \! {\ Tfrac {1} {2}} = 1,}{\displaystyle \operatorname {I} _{X}(H)=-\log _{2}{p_{X}{(H)}}=-\log _{2}\!{\tfrac {1}{2}}=1,}, так что выигрыш в информации при честном приземлении орла составляет 1 шеннон. Аналогичным образом, информационный прирост измерения T {\ displaystyle T}Tхвостов равен IX ⁡ (T) = - log 2 ⁡ p X (T) = - log 2 1 2 = 1 Шеннон. {\ displaystyle \ operatorname {I} _ {X} (T) = - \ log _ {2} {p_ {X} {(T)}} = - \ log _ {2} \! {\ tfrac {1} {2}} = 1 {\ text {shannon}}.}{\displaystyle \operatorname {I} _{X}(T)=-\log _{ 2}{p_{X}{(T)}}=-\log _{2}\!{\tfrac {1}{2}}=1{\text{ shannon}}.}

Справедливый бросок кубиков

Предположим, у нас есть правильный шестигранный кубик. Значение броска кости - это дискретная однородная случайная величина X ∼ DU [1, 6] {\ displaystyle X \ sim \ mathrm {DU} [1,6]}{\displaystyle X\sim \mathrm {DU} [1,6]}с функцией вероятности и массы

p X (k) = {1 6, k ∈ {1, 2, 3, 4, 5, 6} 0, иначе {\ displaystyle p_ {X} (k) = {\ begin {case} {\ frac {1} {6}}, k \ in \ {1,2,3,4,5,6 \} \\ 0, {\ text {else}} \ end {case}}}{\displaystyle p_{X}(k)={\begin{cases}{\frac {1}{6}},k\in \{1,2,3,4,5,6\}\\0,{\text{otherwise}}\end{cases}}}Вероятность выпадения 4 равна p X (4) = 1 6 {\ textstyle p_ {X} (4) = {\ frac {1} {6}}}{\textstyle p_{X}(4)={\frac {1}{6}}}, как и для любого другого действительного рулона. Таким образом, информационное содержание прокатки 4 составляет IX ⁡ (4) = - log 2 ⁡ p X (4) = - log 2 ⁡ 1 6 ≈ 2,585 шеннона {\ displaystyle \ operatorname {I} _ {X} ( 4) = - \ log _ {2} {p_ {X} {(4)}} = - \ log _ {2} {\ tfrac {1} {6}} \ приблизительно 2.585 \; {\ text {shannons} }}{\displaystyle \operatorname {I} _{X}(4)=-\log _{2}{p_{X}{(4)}}=-\log _{2}{\tfrac {1}{6}}\approx 2.585\;{\text{shannons}}}информации.

Две независимые одинаково распределенные игральные кости

Предположим, у нас есть две независимых одинаково распределенных случайных величины X, Y ∼ DU [1, 6] {\ textstyle X, \, Y \ sim \ mathrm {DU} [1,6]}{\textstyle X,\,Y\sim \mathrm {DU} [1,6]}, каждый из которых соответствует независимому справедливому броску 6-сторонних кубиков. совместное распределение из X {\ displaystyle X}Xи Y {\ displaystyle Y}Yis

p X, Y (x, y) = Pr ( X = x, Y = y) = p X (x) p Y (y) = {1 36, x, y ∈ [1, 6] ∩ N 0 в противном случае. {\ Displaystyle {\ begin {align} p_ {X, Y} \! \ left (x, y \ right) {} = \ Pr (X = x, \, Y = y) = p_ {X} \! (х) \, п_ {Y} \! (у) \\ {} = {\ begin {case} \ displaystyle {1 \ over 36}, \ x, y \ in [1,6] \ cap \ mathbb {N} \\ 0 {\ text {в противном случае.}} \ End {cases}} \ end {align}}}{\displaystyle {\begin{aligned}p_{X,Y}\!\left(x,y\right){}=\Pr(X=x,\,Y=y)=p_{X}\!(x)\,p_{Y}\!(y) \\{}={\begin{cases}\displaystyle {1 \over 36},\ x,y\in [1,6]\cap \mathbb {N} \\0{\text{otherwise.}}\end{cases}}\end{aligned}}}

Информационное содержание случайной переменной (X, Y) = (2, 4) {\ displaystyle (X, Y) = (2, \, 4)}{\displaystyle (X,Y)=(2,\,4)}равно

IX, Y ⁡ (2, 4) = - журнал 2 [p X, Y (2, 4)] = log 2 36 = 2 log 2 6 ≈ 5,169925 шеннонов, {\ displaystyle {\ begin {align} \ operatorname {I} _ {X, Y} {(2,4)} = - \ log _ {2} \! {\ left [p_ {X, Y} {(2,4)} \ right]} = \ log _ {2} \! {36} = 2 \ log _ {2} \! {6} \\ \ приблизительно 5,169925 {\ text {shannons}}, \ end {align}}}{\displaystyle {\begin{aligned}\operatorname {I} _{X,Y}{(2,4)}=-\log _{2}\!{\left[p_{X,Y}{(2,4)}\right]}=\log _{2}\!{36}=2\log _{2}\!{6}\\\approx 5.169925{\text{ shannons}},\end{aligned}}}точно так же, как IX, Y ⁡ (2, 4) = - log 2 [p X, Y (2, 4)] = - журнал 2 [p X (2)] - журнал 2 [p Y (4)] = 2 log 2 6 ≈ 5,169925 шеннонов, {\ displaystyle {\ begin {align} \ operatorname { I} _ {X, Y} {(2,4)} = - \ log _ {2} \! {\ Left [p_ {X, Y} {(2,4)} \ right]} = - \ log _ {2} \! {\ left [p_ {X} (2) \ right]} - \ log _ {2} \! {\ left [p_ {Y} (4) \ right]} \\ = 2 \ log _ {2} \! {6} \\ \ a pprox 5.169925 {\ text {shannons}}, \ end {align}}}{\displaystyle {\begin{aligned}\operatorname {I} _{X,Y}{(2,4)}=-\log _{2}\!{\left[p_{X,Y}{(2,4)}\right]}=-\log _{2}\!{\left[p_{X}(2)\right]}-\log _{2}\!{\left[p_{Y}(4)\right]}\\=2\log _{2}\!{6}\\\approx 5.169925{\text{ shannons}},\end{aligned}}}, как описано в § Аддитивность независимых событий.

Информация о частоте бросков

Если мы получаем информацию о значении кубика без знания того, какой кубик имел какое значение, мы можем формализовать подход с помощью так называемых подсчетных переменных

C k: = δ k (X) + δ k (Y) = {0, ¬ (X = k ∨ Y = k) 1, X = k ⊻ Y = k 2, X = k ∧ Y = k {\ displaystyle C_ {k}: = \ delta _ {k} (X) + \ delta _ {k} (Y) = {\ begin {cases} 0, \ neg \, (X = k \ vee Y = k) \\ 1, \ quad X = k \, \ veebar \, Y = k \\ 2, \ quad X = k \, \ wedge \, Y = k \ end {cases}}}{\displaystyle C_{k}:=\delta _{k}(X)+\delta _{k}(Y)={\begin{cases}0,\neg \,(X=k\vee Y=k)\\1,\quad X=k\,\veebar \,Y=k\\2,\quad X=k\,\wedge \,Y=k\end{cases}}}

для k ∈ {1, 2, 3, 4, 5, 6} {\ displaystyle k \ in \ {1,2,3,4,5,6 \}}{\displaystyle k\in \{1,2,3,4,5,6\}}, тогда ∑ k = 1 6 C k = 2 {\ textstyle \ sum _ {k = 1} ^ {6} {C_ {k}} = 2}{\textstyle \sum _{k=1}^{6}{C_{k}}=2}и счетчики имеют многочлен распределение

f (c 1,…, c 6) = Pr (C 1 = c 1 и… и C 6 = c 6) = {1 18 1 c 1! ⋯ c k!, когда ∑ i = 1 6 c i = 2 0 в противном случае, = {1 18, когда 2 c k равны 1 1 36, когда ровно один c k = 2 0, в противном случае. {\ displaystyle {\ begin {align} f (c_ {1}, \ ldots, c_ {6}) {} = \ Pr (C_ {1} = c_ {1} {\ text {and}} \ dots { \ text {и}} C_ {6} = c_ {6}) \\ {} = {\ begin {cases} {\ displaystyle {1 \ over {18}} {1 \ over c_ {1}! \ cdots c_ {k}!}}, \ {\ text {when}} \ sum _ {i = 1} ^ {6} c_ {i} = 2 \\ 0 {\ text {в противном случае}} \ end {case }} \\ {} = {\ begin {cases} {1 \ over 18}, \ {\ text {when 2}} c_ {k} {\ text {are}} 1 \\ {1 \ over 36 }, \ {\ text {, когда ровно один}} c_ {k} = 2 \\ 0, \ {\ text {в противном случае.}} \ end {cases}} \ end {align}}}{\displaystyle {\begin{aligned}f(c_{1},\ldots,c_{6}){}=\Pr(C_{1}=c_{1}{\text{ and }}\dots {\text{ and }}C_{6}=c_{6})\\{}={\begin{cases}{\displaystyle {1 \over {18}}{1 \over c_{1}!\cdots c_{k}!}},\ {\text{when }}\sum _{i=1}^{6}c_{i}=2\\0{\text{otherwise,}}\end{cases}}\\{}={\begin{cases}{1 \over 18},\ {\text{when 2 }}c_{k}{\text{ are }}1\\{1 \over 36},\ {\text{when exactly one }}c_{k}=2\\0,\ {\text{otherwise.}}\end{cases}}\end{aligned}}}

Чтобы проверьте это, 6 исходов (X, Y) ∈ {(k, k)} k = 1 6 = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)} {\ textstyle (X, Y) \ in \ left \ {(k, k) \ right \} _ {k = 1} ^ {6} = \ left \ {(1,1), (2,2), (3,3), (4,4), (5,5), (6,6) \ right \}}{\textstyle (X,Y)\in \left\{(k,k)\right\}_{k=1}^{6}=\left\{(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)\right\}}соответствуют событие C k = 2 {\ displaystyle C_ {k} = 2}{\displaystyle C_{k}=2}и общая вероятность 1/6. Это единственные события, которые точно сохраняются с указанием того, какие кости выпали, какой результат, потому что результаты одинаковы. Без знания того, как различать кубики, бросающие другие числа, другие (6 2) = 15 {\ textstyle {\ binom {6} {2}} = 15}{\textstyle {\binom {6}{2}}=15}комбинаций соответствуют бросанию одного кубика одно число и другой кубик бросают другое число, каждое с вероятностью 1/18. Действительно, 6 ⋅ 1 36 + 15 ⋅ 1 18 = 1 {\ textstyle 6 \ cdot {\ tfrac {1} {36}} + 15 \ cdot {\ tfrac {1} {18}} = 1}{\textstyle 6\cdot {\tfrac {1}{36}}+15\cdot {\tfrac {1}{18}}=1}, если требуется.

Неудивительно, что информационное содержание обучения тому, что обе кости были брошены как одно и то же конкретное число, больше, чем информационное содержание изучения того, что одна игральная кость была одним числом, а другая - другим числом. Возьмем для примера события A k = {(X, Y) = (k, k)} {\ displaystyle A_ {k} = \ {(X, Y) = (k, k) \}}{\displaystyle A_{k}=\{(X,Y)=(k,k)\}}и B j, k = {cj = 1} ∩ {ck = 1} {\ displaystyle B_ {j, k} = \ {c_ {j} = 1 \} \ cap \ {c_ { k} = 1 \}}{\displaystyle B_{j,k}=\{c_{j}=1\}\cap \{c_{k}=1\}}для j ≠ k, 1 ≤ j, k ≤ 6 {\ displaystyle j \ neq k, 1 \ leq j, k \ leq 6}{\displaystyle j\neq k,1\leq j,k\leq 6}. Например, A 2 = {X = 2 и Y = 2} {\ displaystyle A_ {2} = \ {X = 2 {\ text {and}} Y = 2 \}}{\displaystyle A_{2}=\{X=2{\text{ and }} Y=2\}}и B 3, 4 = {(3, 4), (4, 3)} {\ displaystyle B_ {3,4} = \ {(3,4), (4,3) \}}{\displaystyle B_{3,4}=\{(3,4),(4,3)\}}.

Информационное содержание:

I ⁡ (A 2) = - log 2 1 36 = 5.169925 шеннон {\ displaystyle \ operatorname {I} (A_ {2}) = - \ log _ {2} \! {\ Tfrac {1} {36}} = 5,169925 {\ text {shannons}}}{\displaystyle \operatorname {I} (A_{2})=-\log _{2}\!{\tfrac {1}{36}}=5.169925{\text{ shannons}}}I ⁡ (B 3, 4) = - log 2 1 18 = 4,169925 шеннон {\ displaystyle \ operatorname {I} \ left (B_ { 3,4} \ right) = - \ log _ {2} \! {\ Tfrac {1} {18}} = 4.169925 {\ text {shannons}}}{\displaystyle \operatorname {I} \left(B_{3,4}\right)=-\log _{2}\!{\tfrac {1}{18}}=4.169925{\text{ shannons}}}Пусть S ame = ⋃ i = 1 6 A i {\ textstyle Same = \ bigcup _ {i = 1} ^ {6} {A_ {i}}}{\textstyle Same=\bigcup _{i=1}^{6}{A_{i}}}быть событием, когда обе кости выбросили одинаковое значение и D, если и только если = S ame ¯ {\ displaystyle Diff = {\ overline {Same}}}{\displaystyle Diff={\overline {Same}}}быть событием, когда кости различались. Тогда Pr (S ame) = 1 6 {\ textstyle \ Pr (Same) = {\ tfrac {1} {6}}}{\textstyle \Pr(Same)={\tfrac {1}{6}}}и Pr (D iff) = 5 6 {\ textstyle \ Pr (Diff) = {\ tfrac {5} {6}}}{\textstyle \Pr(Diff)={\tfrac {5}{6}}}. Информационное содержание событий: I ⁡ (S ame) = - log 2 1 6 = 2,5849625 shannons {\ displaystyle \ operatorname {I} (Same) = - \ log _ {2} \! {\ Tfrac { 1} {6}} = 2,5849625 {\ text {shannons}}}{\displaystyle \operatorname {I} (Same)=-\log _{2}\!{\tfrac {1}{6}}=2.5849625{\text{ shannons}}}I ⁡ (D iff) = - log 2 5 6 = 0,2630344 шеннона. {\ displaystyle \ operatorname {I} (Diff) = - \ log _ {2} \! {\ tfrac {5} {6}} = 0.2630344 {\ text {shannons}}.}{\displaystyle \operatorname {I} (Diff)=-\log _{2}\!{\tfrac {5}{6}}=0.2630344{\text{ shannons}}.}

Информация из суммы костей

Вероятностная масса или функция плотности (вместе вероятностная мера ) суммы двух независимых случайных величин - это свертка каждой вероятностной меры. В случае независимых справедливых 6-сторонних бросков костей случайная величина Z = X + Y {\ displaystyle Z = X + Y}{\displaystyle Z=X+Y}имеет функцию массы вероятности p Z (z) = p X (x) ∗ p Y (y) = 6 - | z - 7 | 36 {\ textstyle p_ {Z} (z) = p_ {X} (x) * p_ {Y} (y) = {6- | z-7 | \ over 36}}{\textstyle p_{Z}(z)=p_{X}(x)*p_{Y}(y)={6-|z-7| \over 36}}, где ∗ {\ displaystyle *}{\displaystyle *}представляет собой дискретную свертку. outcome Z = 5 {\ displaystyle Z = 5}{\displaystyle Z=5}имеет вероятность p Z (5) = 4 36 = 1 9 {\ textstyle p_ {Z} (5) = {\ frac {4} {36}} = {1 \ более 9}}{\textstyle p_{Z}(5)={\frac {4}{36}}={1 \over 9}}. Следовательно, заявленная информация:

I Z ⁡ (5) = - log 2 ⁡ 1 9 = log 2 9 ≈ 3,169925 шеннонов. {\ displaystyle \ operatorname {I} _ {Z} (5) = - \ log _ {2} {\ tfrac {1} {9}} = \ log _ {2} {9} \ приблизительно 3,169925 {\ text { shannons.}}}{\displaystyle \operatorname {I} _{Z}(5)=-\log _{2}{\tfrac {1}{9}}=\log _{2}{9}\approx 3.169925{\text{ shannons.}}}

Общее дискретное равномерное распределение

Обобщая приведенный выше пример § Справедливый бросок, рассмотрим общую дискретную равномерную случайную величину (DURV) X ∼ DU [a, b]; a, b ∈ Z, b ≥ a. {\ displaystyle X \ sim \ mathrm {DU} [a, b]; \ quad a, b \ in \ mathbb {Z}, \ b \ geq a.}{\displaystyle X\sim \mathrm {DU} [a,b];\quad a,b\in \mathbb {Z},\ b\geq a.}Для удобства определите N: = b - a + 1 {\ textstyle N: = b-a + 1}{\textstyle N:=b-a+1}. p.m.f. равно

p X (k) = {1 N, k ∈ [a, b] ∩ Z 0 в противном случае. {\ displaystyle p_ {X} (k) = {\ begin {case} {\ frac {1} {N}}, k \ in [a, b] \ cap \ mathbb {Z} \\ 0, {\ text {иначе}} \ end {cases}}.}{\displaystyle p_{X}(k)={\begin{cases}{\frac {1}{N}},k\in [a,b]\cap \mathbb {Z} \\0,{\text{otherwise}}\end{cases}}.}В общем, значения DURV не обязательно должны быть целыми или, в целях теории информации, даже равномерно разнесенными; они должны быть только равновероятными. Информационный прирост любого наблюдения X = k {\ displaystyle X = k}{\displaystyle X=k}isI X ⁡ (k) = - log 2 ⁡ 1 N = log 2 ⁡ N shannons. {\ displaystyle \ operatorname {I} _ {X} (k) = - \ log _ {2} {\ frac {1} {N}} = \ log _ {2} {N} {\ text {shannons}}.}{\displaystyle \operatorname {I} _{X}(k)=-\log _{2}{\frac {1}{N}}=\log _{2}{N}{\text{ shannons}}.}

Особый случай: постоянная случайная величина

Если b = a {\ displaystyle b = a}b=aвыше, X {\ displaystyle X}Xвырождается в постоянную случайную величину с распределением вероятностей, детерминированно заданным как X = b {\ displaystyle X = b}{\displaystyle X=b}, и вероятностной мерой меры Дирака п Икс (к) = δ b (k) {\ textstyle p_ {X} (k) = \ delta _ {b} (k)}{\textstyle p_{X}(k)=\delta _{b}(k)}. X {\ displaystyle X}Xможет принимать единственное значение: детерминированно b {\ displaystyle b}b, поэтому информационное содержание любого измерение X {\ displaystyle X}Xis

IX ⁡ (b) = - log 2 ⁡ 1 = 0. {\ displaystyle \ operatorname {I} _ {X} (b) = - \ log _ {2 } {1} = 0.}{\displaystyle \operatorname {I} _{X}(b)=-\log _{2}{1}=0.}Как правило, при измерении известного значения информации не получается.

Категориальное распределение

Обобщая все вышеперечисленные случаи, рассмотрим категориальное дискретная случайная величина с поддержкой S = {si} i = 1 N {\ textstyle {\ mathcal {S}} = {\ bigl \ {} s_ { i} {\ bigr \}} _ {i = 1} ^ {N}}{\textstyle {\mathcal {S}}={\bigl \{}s_{i}{\bigr \}}_{i=1}^{N}}и pmf, заданные как

p X (k) = {pi, k = si ∈ S 0 в противном случае. {\ displaystyle p_ {X} (k) = {\ begin {cases} p_ {i}, k = s_ {i} \ in {\ mathcal {S}} \\ 0, {\ text {else}} \ end {cases}}.}{\displaystyle p_{X}(k)={\begin{cases}p_{i},k=s_{i}\in {\mathcal {S}}\\0,{\text{otherwise}}\end{cases}}.}

В целях теории информации значения s ∈ S {\ displaystyle s \ in {\ mathcal {S}}}{\displaystyle s\in {\mathcal {S}}}даже не должны быть числами вообще; они могут быть просто взаимоисключающими событиями в пространстве измерений конечной меры, которое было нормализовано до вероятностная мера p {\ displaystyle p}p. Без потери общности, мы можем предположить, что категориальное распределение поддерживается на множестве [N] = {1, 2,..., N} {\ textstyle [N] = \ left \ {1,2,..., N \ right \}}{\textstyle [N]=\left\{1,2,...,N\right\}}; математическая структура изоморфна с точки зрения теории вероятностей и, следовательно, теории информации.

Дана информация о результате X = x {\ displaystyle X = x}X=x

IX ⁡ (x) = - log 2 ⁡ p X (x). {\ displaystyle \ operatorname {I} _ {X} (x) = - \ log _ {2} {p_ {X} (x)}.}{\displaystyle \operatorname {I} _{X}(x)=-\log _{2}{p_{X}(x)}.}

Из этих примеров можно вычислить информацию о любом набор независимых DRV с известными распределениями по аддитивностью.

Отношение к энтропии

энтропия - ожидаемое значение информационного содержания дискретной случайной величины с ожиданием, взятым для дискретных значений , которые оно принимает. Иногда саму энтропию называют «самоинформацией» случайной величины, возможно потому, что энтропия удовлетворяет условию H (X) = I ⁡ (X; X) {\ displaystyle \ mathrm {H} (X) = \ operatorname {I} (X; X)}{\displaystyle \mathrm {H} (X)=\operatorname {I} (X;X)}, где I ⁡ (X; X) {\ displaystyle \ operatorname {I} (X; X)}{\displaystyle \operatorname {I} (X;X)}- взаимная информация из X {\ displaystyle X}Xсама с собой.

Деривация

По определению, информация передается из исходной объект, владеющий информацией для принимающего объекта только в том случае, если получатель не знал информацию априори. Если получающий объект заранее знал содержимое сообщения с уверенностью до получения сообщения, объем информации полученного сообщения равен нулю.

Например, процитировав персонажа (хиппи Диппи метеоролог) комика Джорджа Карлина, «Прогноз погоды на сегодня: темно. Постоянная темнота в течение ночи, с широко рассеянным светом к утру ». Если предположить, что человек не находится вблизи полюсов Земли или полярных кругов, объем информации, передаваемой в этом прогнозе, равен нулю потому что до получения прогноза известно, что тьма всегда приходит с ночью.

Когда содержание сообщения известно априори с уверенностью, с вероятностью, равной 1, в сообщении нет фактической информации. Только когда получатель знает содержание сообщения менее чем на 100%, сообщение действительно передает информацию.

Соответственно, объем собственной информации, содержащейся в сообщении, передающем контент, информирующий о возникновении события, ω n {\ displaystyle \ omega _ {n}}\omega _{n}, зависит только от вероятности того события.

я ⁡ (ω N) знак равно е (п ⁡ (ω n)) {\ displaystyle \ operatorname {I} (\ omega _ {n}) = f (\ operatorname {P} (\ omega _ {n}))}{\displaystyle \operatorname {I} (\omega _{n})=f(\operatorname {P} (\omega _{n}))}

для некоторой функции f (⋅) {\ displaystyle f (\ cdot)}f(\cdot), которая будет определена ниже. Если P ⁡ (ω n) = 1 {\ displaystyle \ operatorname {P} (\ omega _ {n}) = 1}{\displaystyle \operatorname {P} (\omega _{n})=1}, то I ⁡ (ω n) = 0 {\ displaystyle \ operatorname {I} (\ omega _ {n}) = 0}{\displaystyle \operatorname {I} (\omega _{n})=0}. Если P ⁡ (ω n) < 1 {\displaystyle \operatorname {P} (\omega _{n})<1}{\displaystyle \operatorname {P} (\omega _{n})<1}, то I ⁡ (ω n)>0 {\ displaystyle \ operatorname {I} (\ omega _ {n})>0}{\displaystyle \operatorname {I} (\omega _{n})>0} .

Кроме того, по определению, мера самоинформации неотрицательна и аддитивна. Если сообщение, информирующее о событии C {\ displaystyle C}C, является пересечением из двух независимых событий A {\ displaystyle A}Aи B {\ displaystyle B}B, затем информация о событии C {\ displaystyle C}Cпроисходит из составного сообщения обоих независимых событий A {\ displaystyle A}Aи B {\ displaystyle B }B. Ожидается, что количество информации составного сообщения C {\ displaystyle C}Cбудет равно sum объемов информации сообщения отдельных компонентов A {\ displa ystyle A}Aи B {\ displaystyle B}Bсоответственно:

I ⁡ (C) = I ⁡ (A ∩ B) = I ⁡ (A) + Я ⁡ (В) {\ Displaystyle \ OperatorName {I} (C) = \ OperatorName {I} (A \ cap B) = \ OperatorName {I} (A) + \ Operatorname {I} (B)}{\displaystyle \operatorname {I} (C)=\operatorname {I} (A\cap B)=\operatorname {I} (A)+\operatorname {I} (B)}.

Из-за независимости событий A {\ displaystyle A}Aи B {\ displaystyle B}Bвероятность события C {\ displaystyle C }Cравно

P ⁡ (C) = P ⁡ (A ∩ B) = P ⁡ (A) ⋅ P ⁡ (B) {\ displaystyle \ operatorname {P} (C) = \ operatorname {P} (A \ cap B) = \ operatorname {P} (A) \ cdot \ operatorname {P} (B)}{\displaystyle \operatorname {P} (C)=\operatorname {P} (A\cap B)=\operatorn ame {P} (A)\cdot \operatorname {P} (B)}.

Однако применение функции f (⋅) {\ displaystyle f (\ cdot)}f(\cdot)приводит к

I ⁡ (C) = I ⁡ (A) + I ⁡ (B) f (P ⁡ (C)) = f (P ⁡ (A)) + f ( П ⁡ (B)) знак равно е (п ⁡ (A) ⋅ п ⁡ (B)) {\ displaystyle {\ begin {align} \ operatorname {I} (C) = \ operatorname {I} (A) + \ OperatorName {I} (B) \\ f (\ operatorname {P} (C)) = f (\ operatorname {P} (A)) + f (\ operatorname {P} (B)) \\ = f {\ big (} \ operatorn ame {P} (A) \ cdot \ operatorname {P} (B) {\ big)} \\\ end {align}}}{\displaystyle {\begin{aligned}\operatorname {I} (C)=\operatorname {I} (A)+\operatorname {I} (B)\\f(\operatorname {P} (C))=f(\operatorname {P} (A))+f(\operatorname {P} (B))\\=f{\big (}\operatorname {P} (A)\cdot \operatorname {P} (B){\big)}\\\end{aligned}}}

Класс функции f (⋅) {\ displaystyle f ( \ cdot)}f(\cdot)обладающий таким свойством, что

f (x ⋅ y) = f (x) + f (y) {\ displaystyle f (x \ cdot y) = f (x) + f (y)}{\displaystyle f(x\cdot y)=f(x)+f(y)}

- это функция логарифма любого основания. Единственное рабочее различие между логарифмами разных оснований - это разные константы масштабирования.

f (x) = K log ⁡ (x) {\ displaystyle f (x) = K \ log (x)}{\displaystyle f(x)=K\log(x)}

Поскольку вероятности событий всегда находятся в диапазоне от 0 до 1, и информация, связанная с этими событиями должен быть неотрицательным, для чего требуется, чтобы K < 0 {\displaystyle K<0}K<0.

с учетом этих свойств, самоинформация I ⁡ (ω n) {\ displaystyle \ operatorname {I} (\ omega _ {n})}\operatorname I(\omega_n)связанный с результатом ω n {\ displaystyle \ omega _ {n}}\omega _{n}с вероятностью P ⁡ (ω n) {\ displaystyle \ operatorname {P} (\ omega _ { n})}\operatorname P(\omega_n)определяется как:

I ⁡ (ω n) = - log ⁡ (P ⁡ (ω n)) = log ⁡ (1 P ⁡ (ω n)) {\ displaystyle \ operatorname {I} (\ omega _ {n}) = - \ log (\ operatorname {P} (\ omega _ {n})) = \ log \ left ({\ frac {1} {\ operatorname {P} (\ omega _ {n})}} \ right)}{\displaystyle \operatorname {I} (\omega _{n})=-\log(\operatorname {P} (\omega _{n}))=\log \left({\frac {1}{\operatorname {P} (\omega _{n})}}\right)}

Чем меньше вероятность события ω n {\ displaystyle \ omega _ {n}}\omega _{n}, тем больше количество Собственная информация, связанная с сообщением о том, что событие действительно произошло. Если логарифм равен основанию 2, единицей измерения I (ω n) {\ displaystyle \ displaystyle I (\ omega _ {n})}\displaystyle I(\omega_n)является бит. Это самая распространенная практика. При использовании натурального логарифма по основанию e {\ displaystyle \ displaystyle e}\displaystyle eединицей измерения будет nat. Для логарифма с основанием 10 единицей информации является хартли.

. В качестве быстрой иллюстрации информационное содержание, связанное с исходом в 4 решки (или любым конкретным исходом) в 4 последовательных подбрасываниях монеты, будет равно 4 бит (вероятность 1/16), а информационное содержание, связанное с получением результата, отличного от указанного, будет ~ 0,09 бит (вероятность 15/16). См. Подробные примеры выше.

См. Также
Ссылки
  1. ^Джонс, Д.С., Элементарная теория информации, т., Clarendon Press, Oxford, стр. 11-15 1979 г.
  2. ^ МакМахон, Дэвид М. (2008). Объяснение квантовых вычислений. Хобокен, Нью-Джерси: Wiley-Interscience. ISBN 9780470181386. OCLC 608622533.
  3. ^Борда, Моника (2011). Основы теории информации и кодирования. Springer. ISBN 978-3-642-20346-6.
  4. ^Хан, Те Сун и Кобаяши, Кинго (2002). Математика информации и кодирования. Американское математическое общество. ISBN 978-0-8218-4256-0. CS1 maint: использует параметр авторов (ссылка )
  5. ^RB Bernstein and RD Levine (1972) «Энтропия и химические изменения. I. Характеристика распределения энергии продукта (и реагента) в реактивных молекулярных столкновениях: информация и энтропийный дефицит », The Journal of Chemical Physics 57, 434-449 link.
  6. ^Myron Трибус (1961) Термодинамика и термостатика: Введение в энергию, информацию и состояния материи с инженерными приложениями (Д. Ван Ностранд, 24 West 40 Street, New York 18, New York, USA) Tribus, Myron (1961), стр. 64-66 заимствовать.
  7. ^Томас М. Кавер, Джой А. Томас; Элементы теории информации; стр. 20; 1991.
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-05-24 14:44:59
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте