В теории информации, избыточность измеряет дробную разницу между энтропией H (X) ансамбля X и его максимально возможное значение . Неформально это количество потраченного впустую «пространства», используемого для передачи определенных данных. Сжатие данных - это способ уменьшить или устранить нежелательную избыточность, в то время как контрольные суммы - это способ добавления желаемой избыточности для целей обнаружения ошибок при обмене данными по шумному канал ограниченной емкости.
При описании избыточности исходных данных скорость источника информации представляет собой среднюю энтропию на символ. Для источников без памяти это просто энтропия каждого символа, в то время как в наиболее общем случае случайного процесса это
в пределе, когда n стремится к бесконечности, совместной энтропии первых n символов, деленной на n. В теории информации принято говорить о «скорости» или «энтропии » языка. Это уместно, например, когда источником информации является английская проза. Скорость источника без памяти равна просто , поскольку по определению нет взаимозависимости последовательных сообщений источника без памяти.
абсолютная скорость языка или источника - это просто
логарифм мощности пространства сообщений или алфавита. (Эту формулу иногда называют функцией Хартли.) Это максимально возможная скорость передачи информации, которая может быть передана с этим алфавитом. (Логарифм должен быть взят с базой, соответствующей используемой единице измерения.) Абсолютная скорость равна фактической скорости, если источник не имеет памяти и имеет равномерное распределение.
Абсолютная избыточность затем можно определить как
разность между абсолютной скоростью и скоростью.
Величина называется относительной избыточностью и дает максимально возможное коэффициент сжатия данных, когда он выражается как процент, на который можно уменьшить размер файла. (При выражении в виде отношения исходного размера файла к размеру сжатого файла величина дает максимальный коэффициент сжатия, который может быть достигнут.) Дополняет концепция относительной избыточности - это эффективность, определяемая как , так что . Источник без памяти с равномерным распределением имеет нулевую избыточность (и, следовательно, 100% эффективность) и не может быть сжат.
Мера избыточности между двумя переменными - это взаимная информация или ее нормализованный вариант. Мера избыточности среди многих переменных определяется общей корреляцией.
Избыточность сжатых данных относится к разнице между ожидаемой длиной сжатых данных сообщения (или ожидаемая скорость передачи данных ) и энтропия (или коэффициент энтропии ). (Здесь мы предполагаем, что данные являются эргодическими и стационарными, например, источником без памяти.) Хотя разница в скорости может быть сколь угодно малым, поскольку увеличивается, фактическая разница , не может, хотя теоретически может быть ограничено сверху единицей в случае Источники без памяти с конечной энтропией.