Теорема Шеннона о кодировании источника

редактировать
Эта статья посвящена теории кодирования исходного кода при сжатии данных. Чтобы узнать о термине в компьютерном программировании, см. Исходный код.

В теории информации, источник Шеннона теорема кодирование (или бесшумная теорема кодирования) устанавливает пределы возможного сжатия данных, а также оперативный смысл энтропии Шеннона.

Теорема кодирования источника, названная в честь Клода Шеннона, показывает, что (в пределе, поскольку длина потока независимых и одинаково распределенных данных случайных величин (iid) стремится к бесконечности) невозможно сжать данные так, чтобы скорость кода (среднее количество битов на символ) меньше энтропии Шеннона источника, при этом практически нет уверенности в том, что информация будет потеряна. Однако можно получить скорость кода, произвольно близкую к энтропии Шеннона, с пренебрежимо малой вероятностью потерь.

Теорема исходного кодирования для символьных кодов устанавливает верхнюю и нижнюю границы минимально возможной ожидаемой длины кодовых слов как функции энтропии входного слова (которое рассматривается как случайная величина ) и размера целевого алфавита.

СОДЕРЖАНИЕ
  • 1 Заявления
    • 1.1 Теорема исходного кода
    • 1.2 Теорема кодирования источника для символьных кодов
  • 2 Доказательство: теорема о кодировании источника
  • 3 Доказательство: теорема кодирования источника для символьных кодов
  • 4 Распространение на нестационарные независимые источники
    • 4.1 Кодирование источника без потерь с фиксированной скоростью для нестационарных независимых источников с дискретным временем
  • 5 См. Также
  • 6 Ссылки
Заявления

Источник кодирования является отображением из (последовательности) символов из информационного источника к последовательности символов алфавита (обычно биты) таким образом, что символы источника может быть точно восстановлены из двоичных бит (кодирование источника без потерь) или восстанавливается в течение некоторого искажения ( кодирование с потерями исходного кода). Это концепция сжатия данных.

Теорема исходного кода

В теории информации теорема кодирования источника (Shannon 1948) неофициально утверждает, что (MacKay 2003, pg. 81, Cover 2006, Chapter 5):

N i.id случайных величин, каждая с энтропией H ( X), может быть сжато до более чем N H ( X) битов с пренебрежимо малым риском потери информации при N → ∞ ; но, наоборот, если они сжаты до менее чем N H ( X) битов, практически наверняка информация будет потеряна.

Теорема исходного кодирования для символьных кодов

Пусть Σ 1, Σ 2 обозначают два конечных алфавита и пусть Σ 1и Σ 2обозначают набор всех конечных слов из этих алфавитов (соответственно).

Предположим, что X - случайная величина, принимающая значения в Σ 1, и пусть f - однозначно декодируемый код из Σ   1в Σ 2где | Σ 2 | = а. Пусть S обозначает случайную величину, заданную длиной кодового слова f  ( X).  

Если f оптимален в том смысле, что он имеет минимальную ожидаемую длину слова для X, то (Shannon 1948):   

ЧАС ( Икс ) бревно 2 а E [ S ] lt; ЧАС ( Икс ) бревно 2 а + 1 {\ displaystyle {\ frac {H (X)} {\ log _ {2} a}} \ leq \ mathbb {E} [S] lt;{\ frac {H (X)} {\ log _ {2} a }} + 1}

Где обозначает оператор ожидаемого значения. E {\ displaystyle \ mathbb {E}}

Доказательство: теорема о кодировании источника.

Если X является источником iid, его временные ряды X 1,..., X n являются iid с энтропией H ( X) в дискретном случае и дифференциальной энтропией в случае с непрерывными значениями. Теорема кодирования источника утверждает, что для любого ε gt; 0, то есть для любой скорости H ( X) + ε, большей, чем энтропия источника, существует достаточно большое n и кодировщик, который принимает n iid повторений источника, X 1: n, и отображает его в n ( H ( X) + ε) двоичных битов, так что исходные символы X 1: n восстанавливаются из двоичных битов с вероятностью не менее 1 - ε.

Доказательство достижимости. Зафиксируем некоторое ε gt; 0 и пусть

п ( Икс 1 , , Икс п ) знак равно Pr [ Икс 1 знак равно Икс 1 , , Икс п знак равно Икс п ] . {\ displaystyle p (x_ {1}, \ ldots, x_ {n}) = \ Pr \ left [X_ {1} = x_ {1}, \ cdots, X_ {n} = x_ {n} \ right]. }

Типовой набор, Аε n, определяется следующим образом:

А п ε знак равно { ( Икс 1 , , Икс п )   :   | - 1 п бревно п ( Икс 1 , , Икс п ) - ЧАС п ( Икс ) | lt; ε } . {\ Displaystyle A_ {n} ^ {\ varepsilon} = \ left \ {(x_ {1}, \ cdots, x_ {n}) \: \ \ left | - {\ frac {1} {n}} \ log p (x_ {1}, \ cdots, x_ {n}) - H_ {n} (X) \ right | lt;\ varepsilon \ right \}.}

Свойство асимптотической равнораспределенности (AEP) показывает, что для достаточно большого n вероятность того, что последовательность, сгенерированная источником, принадлежит типичному набору, Aε n, как определено, приближается к одному. В частности, при достаточно больших п, можно сделать сколь угодно близким к 1, и, в частности, больше, чем (см AEP для доказательства). п ( ( Икс 1 , Икс 2 , , Икс п ) А п ε ) {\ Displaystyle P ((X_ {1}, X_ {2}, \ cdots, X_ {n}) \ in A_ {n} ^ {\ varepsilon})} 1 - ε {\ displaystyle 1- \ varepsilon}

Определение типичных наборов подразумевает, что те последовательности, которые лежат в типичном наборе, удовлетворяют:

2 - п ( ЧАС ( Икс ) + ε ) п ( Икс 1 , , Икс п ) 2 - п ( ЧАС ( Икс ) - ε ) {\ displaystyle 2 ^ {- n (H (X) + \ varepsilon)} \ leq p \ left (x_ {1}, \ cdots, x_ {n} \ right) \ leq 2 ^ {- n (H (X) - \ varepsilon)}}

Обратите внимание, что:

  • Вероятность того, что последовательность будет взята из A ( Икс 1 , Икс 2 , Икс п ) {\ Displaystyle (X_ {1}, X_ {2}, \ cdots X_ {n})}ε nбольше 1 - ε.
  • | А п ε | 2 п ( ЧАС ( Икс ) + ε ) {\ displaystyle \ left | A_ {n} ^ {\ varepsilon} \ right | \ leq 2 ^ {n (H (X) + \ varepsilon)}}, что следует из левой части (нижней оценки) для. п ( Икс 1 , Икс 2 , Икс п ) {\ Displaystyle p (x_ {1}, x_ {2}, \ cdots x_ {n})}
  • | А п ε | ( 1 - ε ) 2 п ( ЧАС ( Икс ) - ε ) {\ displaystyle \ left | A_ {n} ^ {\ varepsilon} \ right | \ geq (1- \ varepsilon) 2 ^ {n (H (X) - \ varepsilon)}}, что следует из оценок сверху и снизу полной вероятности всего множества A п ( Икс 1 , Икс 2 , Икс п ) {\ Displaystyle p (x_ {1}, x_ {2}, \ cdots x_ {n})}ε n.

Так как битов достаточно, чтобы указать на любую строку в этом наборе. | А п ε | 2 п ( ЧАС ( Икс ) + ε ) , п ( ЧАС ( Икс ) + ε ) {\ displaystyle \ left | A_ {n} ^ {\ varepsilon} \ right | \ leq 2 ^ {n (H (X) + \ varepsilon)}, n (H (X) + \ varepsilon)}

Алгоритм кодирования: кодировщик проверяет, находится ли входная последовательность в пределах типичного набора; если да, он выводит индекс входной последовательности в типичном наборе; в противном случае кодировщик выдает произвольное n ( H ( X) + ε) разрядное число. Пока входная последовательность находится в пределах типичного набора (с вероятностью не менее 1 - ε), кодировщик не делает ошибок. Таким образом, вероятность ошибки кодировщика ограничена сверху величиной ε.

Доказательство обратного. Обратное доказывается, показывая, что любой набор размера меньше, чем Aε n(в смысле экспоненты) охватывал бы набор вероятностей, ограниченный от 1.

Доказательство: теорема кодирования источника для символьных кодов.

Для 1 ≤ i ≤ n пусть s i обозначает длину слова каждого возможного x i. Определим, где C выбрано так, чтобы q 1 +... + q n = 1. Затем q я знак равно а - s я / C {\ displaystyle q_ {i} = a ^ {- s_ {i}} / C}

ЧАС ( Икс ) знак равно - я знак равно 1 п п я бревно 2 п я - я знак равно 1 п п я бревно 2 q я знак равно - я знак равно 1 п п я бревно 2 а - s я + я знак равно 1 п п я бревно 2 C знак равно - я знак равно 1 п п я бревно 2 а - s я + бревно 2 C - я знак равно 1 п - s я п я бревно 2 а E S бревно 2 а {\ Displaystyle {\ begin {align} H (X) amp; = - \ sum _ {i = 1} ^ {n} p_ {i} \ log _ {2} p_ {i} \\ amp; \ leq - \ sum _ {i = 1} ^ {n} p_ {i} \ log _ {2} q_ {i} \\ amp; = - \ sum _ {i = 1} ^ {n} p_ {i} \ log _ {2 } a ^ {- s_ {i}} + \ sum _ {i = 1} ^ {n} p_ {i} \ log _ {2} C \\ amp; = - \ sum _ {i = 1} ^ {n } p_ {i} \ log _ {2} a ^ {- s_ {i}} + \ log _ {2} C \\ amp; \ leq - \ sum _ {i = 1} ^ {n} -s_ {i } p_ {i} \ log _ {2} a \\ amp; \ leq \ mathbb {E} S \ log _ {2} a \\\ конец {выровнено}}}

где вторая строка следует из неравенства Гиббса, а пятая строка следует из неравенства Крафт :

C знак равно я знак равно 1 п а - s я 1 {\ displaystyle C = \ sum _ {i = 1} ^ {n} a ^ {- s_ {i}} \ leq 1}

так что журнал C ≤ 0.

Для второго неравенства можно положить

s я знак равно - бревно а п я {\ Displaystyle s_ {я} = \ lceil - \ log _ {a} p_ {i} \ rceil}

и что

- бревно а п я s я lt; - бревно а п я + 1 {\ displaystyle - \ log _ {a} p_ {i} \ leq s_ {i} lt;- \ log _ {a} p_ {i} +1}

так что

а - s я п я {\ displaystyle a ^ {- s_ {i}} \ leq p_ {i}}

и

а - s я п я знак равно 1 {\ displaystyle \ sum a ^ {- s_ {i}} \ leq \ sum p_ {i} = 1}

и поэтому по неравенству Крафт существует код без префиксов, имеющий такую ​​длину слова. Таким образом, минимальный S удовлетворяет

E S знак равно п я s я lt; п я ( - бревно а п я + 1 ) знак равно - п я бревно 2 п я бревно 2 а + 1 знак равно ЧАС ( Икс ) бревно 2 а + 1 {\ displaystyle {\ begin {align} \ mathbb {E} S amp; = \ sum p_ {i} s_ {i} \\ amp; lt;\ sum p_ {i} \ left (- \ log _ {a} p_ {i} +1 \ right) \\ amp; = \ sum -p_ {i} {\ frac {\ log _ {2} p_ {i}} {\ log _ {2} a}} + 1 \\ amp; = {\ frac {H (X)} {\ log _ {2} a}} + 1 \\\ конец {выровнено}}}
Распространение на нестационарные независимые источники

Кодирование источника без потерь с фиксированной скоростью для нестационарных независимых источников дискретного времени

Определить типовой набор Aε n в виде:

А п ε знак равно { Икс 1 п   :   | - 1 п бревно п ( Икс 1 , , Икс п ) - ЧАС п ¯ ( Икс ) | lt; ε } . {\ displaystyle A_ {n} ^ {\ varepsilon} = \ left \ {x_ {1} ^ {n} \: \ \ left | - {\ frac {1} {n}} \ log p \ left (X_ { 1}, \ cdots, X_ {n} \ right) - {\ overline {H_ {n}}} (X) \ right | lt;\ varepsilon \ right \}.}

Тогда для данного δ gt; 0 и достаточно большого n Pr ( Aε n)gt; 1 - δ. Теперь мы просто кодируем последовательности в типичном наборе, а обычные методы кодирования исходного кода показывают, что мощность этого набора меньше, чем. Таким образом, в среднем H n ( X) + ε битов достаточно для кодирования с вероятностью больше 1 - δ, где ε и δ можно сделать сколь угодно малыми, увеличив n. 2 п ( ЧАС п ¯ ( Икс ) + ε ) {\ displaystyle 2 ^ {n ({\ overline {H_ {n}}} (X) + \ varepsilon)}}

Смотрите также
использованная литература
Последняя правка сделана 2023-03-20 04:44:11
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте