Избыточность ( теория информации)

редактировать

В теории информации, избыточность измеряет дробную разницу между энтропией H (X) ансамбля X и его максимально возможное значение log ⁡ (| AX |) {\ displaystyle \ log (| {\ mathcal {A}} _ {X} |)}{\ displaystyle \ log (| { \ mathcal {A}} _ {X} |)} . Неформально это количество потраченного впустую «пространства», используемого для передачи определенных данных. Сжатие данных - это способ уменьшить или устранить нежелательную избыточность, в то время как контрольные суммы - это способ добавления желаемой избыточности для целей обнаружения ошибок при обмене данными по шумному канал ограниченной емкости.

Содержание
  • 1 Количественное определение
  • 2 Другие понятия
  • 3 См. Также
  • 4 Ссылки
Количественное определение

При описании избыточности исходных данных скорость источника информации представляет собой среднюю энтропию на символ. Для источников без памяти это просто энтропия каждого символа, в то время как в наиболее общем случае случайного процесса это

r = lim n → ∞ 1 n H (M 1, M 2,… M n), {\ displaystyle r = \ lim _ {n \ to \ infty} {\ frac {1} {n}} H (M_ {1}, M_ {2}, \ dots M_ {n}),}r = \ lim _ {{n \ to \ infty}} {\ frac {1} {n}} H (M_ {1}, M_ {2}, \ точки M_ {n}),

в пределе, когда n стремится к бесконечности, совместной энтропии первых n символов, деленной на n. В теории информации принято говорить о «скорости» или «энтропии » языка. Это уместно, например, когда источником информации является английская проза. Скорость источника без памяти равна просто H (M) {\ displaystyle H (M)}H (M) , поскольку по определению нет взаимозависимости последовательных сообщений источника без памяти.

абсолютная скорость языка или источника - это просто

R = log ⁡ | M |, {\ displaystyle R = \ log | \ mathbb {M} |, \,}R = \ log | {\ mathbb M} |, \,

логарифм мощности пространства сообщений или алфавита. (Эту формулу иногда называют функцией Хартли.) Это максимально возможная скорость передачи информации, которая может быть передана с этим алфавитом. (Логарифм должен быть взят с базой, соответствующей используемой единице измерения.) Абсолютная скорость равна фактической скорости, если источник не имеет памяти и имеет равномерное распределение.

Абсолютная избыточность затем можно определить как

D = R - r, {\ displaystyle D = Rr, \,}D = Rr, \,

разность между абсолютной скоростью и скоростью.

Величина DR {\ displaystyle {\ frac {D} {R}}}{\ frac DR} называется относительной избыточностью и дает максимально возможное коэффициент сжатия данных, когда он выражается как процент, на который можно уменьшить размер файла. (При выражении в виде отношения исходного размера файла к размеру сжатого файла величина R: r {\ displaystyle R: r}R: r дает максимальный коэффициент сжатия, который может быть достигнут.) Дополняет концепция относительной избыточности - это эффективность, определяемая как r R, {\ displaystyle {\ frac {r} {R}},}{\ frac rR}, , так что r R + DR = 1 {\ displaystyle {\ frac {r} {R}} + {\ frac {D} {R}} = 1}{\ frac rR} + {\ frac DR} = 1 . Источник без памяти с равномерным распределением имеет нулевую избыточность (и, следовательно, 100% эффективность) и не может быть сжат.

Другие понятия

Мера избыточности между двумя переменными - это взаимная информация или ее нормализованный вариант. Мера избыточности среди многих переменных определяется общей корреляцией.

Избыточность сжатых данных относится к разнице между ожидаемой длиной сжатых данных n {\ displaystyle n}n сообщения L (M n) {\ displaystyle L (M ^ {n}) \, \!}L (M ^ {n}) \, \! (или ожидаемая скорость передачи данных L (M n) / n {\ displaystyle L (M ^ {n}) / n \, \!}L (M ^ { n}) / n \, \! ) и энтропия nr {\ displaystyle nr \, \!}nr \, \! (или коэффициент энтропии r {\ displaystyle r \, \!}r \, \! ). (Здесь мы предполагаем, что данные являются эргодическими и стационарными, например, источником без памяти.) Хотя разница в скорости L (M n) / n - r {\ displaystyle L (M ^ {n}) / nr \, \!}L (M ^ {n}) / nr \, \! может быть сколь угодно малым, поскольку n {\ displaystyle n \, \!}n \, \! увеличивается, фактическая разница L (M n) - nr {\ displaystyle L (M ^ {n}) - nr \, \!}L (M ^ {n}) - nr \, \! , не может, хотя теоретически может быть ограничено сверху единицей в случае Источники без памяти с конечной энтропией.

См. Также
Ссылки
  • Реза, Фазлолла М. (1994) [1961]. Введение в теорию информации. Нью-Йорк: Довер [Макгроу-Хилл]. ISBN 0-486-68210-2.
  • Шнайер, Брюс (1996). Прикладная криптография: протоколы, алгоритмы и исходный код на C. Нью-Йорк: John Wiley Sons, Inc. ISBN 0-471-12845-7.
  • Auffarth, B; Lopez-Sanchez, M.; Серкидес, Дж. (2010). «Сравнение мер избыточности и релевантности для выбора признаков в классификации тканей компьютерной томографии». Достижения в области интеллектуального анализа данных. Приложения и теоретические аспекты. Springer. С. 248–262. CiteSeerX 10.1.1.170.1528.
Последняя правка сделана 2021-06-03 11:16:59
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте