Избыточность ( теория информации)

редактировать

В теории информации, избыточность измеряет дробную разницу между энтропией H (X) ансамбля X и его максимально возможное значение $log ⁡ (| AX |) {\ displaystyle \ log (| {\ mathcal {A}} _ {X} |)}$ ${\ displaystyle \ log (| { \ mathcal {A}} _ {X} |)}$ . Неформально это количество потраченного впустую «пространства», используемого для передачи определенных данных. Сжатие данных - это способ уменьшить или устранить нежелательную избыточность, в то время как контрольные суммы - это способ добавления желаемой избыточности для целей обнаружения ошибок при обмене данными по шумному канал ограниченной емкости.

Содержание

1 Количественное определение
2 Другие понятия
3 См. Также
4 Ссылки

Количественное определение

При описании избыточности исходных данных скорость источника информации представляет собой среднюю энтропию на символ. Для источников без памяти это просто энтропия каждого символа, в то время как в наиболее общем случае случайного процесса это

r = lim n → ∞ 1 n H (M 1, M 2,… M n), {\ displaystyle r = \ lim _ {n \ to \ infty} {\ frac {1} {n}} H (M_ {1}, M_ {2}, \ dots M_ {n}),}

r = \ lim _ {{n \ to \ infty}} {\ frac {1} {n}} H (M_ {1}, M_ {2}, \ точки M_ {n}),

в пределе, когда n стремится к бесконечности, совместной энтропии первых n символов, деленной на n. В теории информации принято говорить о «скорости» или «энтропии » языка. Это уместно, например, когда источником информации является английская проза. Скорость источника без памяти равна просто $H (M) {\ displaystyle H (M)}$ $H (M)$ , поскольку по определению нет взаимозависимости последовательных сообщений источника без памяти.

абсолютная скорость языка или источника - это просто

R = log ⁡ | M |, {\ displaystyle R = \ log | \ mathbb {M} |, \,}

R = \ log | {\ mathbb M} |, \,

логарифм мощности пространства сообщений или алфавита. (Эту формулу иногда называют функцией Хартли.) Это максимально возможная скорость передачи информации, которая может быть передана с этим алфавитом. (Логарифм должен быть взят с базой, соответствующей используемой единице измерения.) Абсолютная скорость равна фактической скорости, если источник не имеет памяти и имеет равномерное распределение.

Абсолютная избыточность затем можно определить как

D = R - r, {\ displaystyle D = Rr, \,}

D = Rr, \,

разность между абсолютной скоростью и скоростью.

Величина $DR {\ displaystyle {\ frac {D} {R}}}$ ${\ frac DR}$ называется относительной избыточностью и дает максимально возможное коэффициент сжатия данных, когда он выражается как процент, на который можно уменьшить размер файла. (При выражении в виде отношения исходного размера файла к размеру сжатого файла величина $R: r {\ displaystyle R: r}$ $R: r$ дает максимальный коэффициент сжатия, который может быть достигнут.) Дополняет концепция относительной избыточности - это эффективность, определяемая как $r R, {\ displaystyle {\ frac {r} {R}},}$ ${\ frac rR},$ , так что $r R + DR = 1 {\ displaystyle {\ frac {r} {R}} + {\ frac {D} {R}} = 1}$ ${\ frac rR} + {\ frac DR} = 1$ . Источник без памяти с равномерным распределением имеет нулевую избыточность (и, следовательно, 100% эффективность) и не может быть сжат.

Другие понятия

Мера избыточности между двумя переменными - это взаимная информация или ее нормализованный вариант. Мера избыточности среди многих переменных определяется общей корреляцией.

Избыточность сжатых данных относится к разнице между ожидаемой длиной сжатых данных $n {\ displaystyle n}$ $n$ сообщения $L (M n) {\ displaystyle L (M ^ {n}) \, \!}$ $L (M ^ {n}) \, \!$ (или ожидаемая скорость передачи данных $L (M n) / n {\ displaystyle L (M ^ {n}) / n \, \!}$ $L (M ^ { n}) / n \, \!$ ) и энтропия $nr {\ displaystyle nr \, \!}$ $nr \, \!$ (или коэффициент энтропии $r {\ displaystyle r \, \!}$ $r \, \!$ ). (Здесь мы предполагаем, что данные являются эргодическими и стационарными, например, источником без памяти.) Хотя разница в скорости $L (M n) / n - r {\ displaystyle L (M ^ {n}) / nr \, \!}$ $L (M ^ {n}) / nr \, \!$ может быть сколь угодно малым, поскольку $n {\ displaystyle n \, \!}$ $n \, \!$ увеличивается, фактическая разница $L (M n) - nr {\ displaystyle L (M ^ {n}) - nr \, \!}$ $L (M ^ {n}) - nr \, \!$ , не может, хотя теоретически может быть ограничено сверху единицей в случае Источники без памяти с конечной энтропией.

См. Также

Ссылки

Реза, Фазлолла М. (1994) [1961]. Введение в теорию информации. Нью-Йорк: Довер [Макгроу-Хилл]. ISBN 0-486-68210-2.
Шнайер, Брюс (1996). Прикладная криптография: протоколы, алгоритмы и исходный код на C. Нью-Йорк: John Wiley Sons, Inc. ISBN 0-471-12845-7.
Auffarth, B; Lopez-Sanchez, M.; Серкидес, Дж. (2010). «Сравнение мер избыточности и релевантности для выбора признаков в классификации тканей компьютерной томографии». Достижения в области интеллектуального анализа данных. Приложения и теоретические аспекты. Springer. С. 248–262. CiteSeerX 10.1.1.170.1528.