Энтропийное кодирование

редактировать

В теории информации энтропийное кодирование - это схема сжатия данных без потерь, которая не зависит от конкретных характеристик средний.

Один из основных типов энтропийного кодирования создает и присваивает уникальный код без префиксов каждому уникальному символу , который встречается во входных данных. Эти энтропийные кодеры затем сжимают данные, заменяя каждый входной символ фиксированной длины соответствующим выходным кодовым словом переменной длины без префиксов. Длина каждого кодового слова приблизительно пропорциональна отрицательному логарифму вероятности появления этого кодового слова. Таким образом, наиболее распространенные символы используют самые короткие коды.

Согласно теореме Шеннона кодирования источника, оптимальная длина кода для символа - -log b P, где b - количество символов, используемых для создания выходных кодов, а P - вероятность входного символа.

Двумя наиболее распространенными методами энтропийного кодирования являются кодирование Хаффмана и арифметическое кодирование. Если приблизительные энтропийные характеристики потока данных известны заранее (особенно для сжатия сигнала ), может оказаться полезным более простой статический код. Эти статические коды включают универсальные коды (например, гамма-кодирование Элиаса или кодирование Фибоначчи ) и коды Голомба (например, унарные кодирование или кодирование риса ).

С 2014 года компрессоры данных начали использовать семейство методов энтропийного кодирования асимметричных систем счисления, которое позволяет комбинировать степень сжатия арифметического кодирования со стоимостью обработки аналогично кодированию Хаффмана.

Содержание

1 Энтропия как мера сходства
2 См. также
3 Ссылки
4 Внешние ссылки

Энтропия как мера сходства

Помимо использования энтропийного кодирования как способа сжатия цифровых данных, энтропийный кодировщик также может использоваться для измерения степени сходства между потоками данных и уже существующими классами данных.. Это делается путем создания энтропийного кодировщика / компрессора для каждого класса данных; затем неизвестные данные классифицируются путем подачи несжатых данных в каждый компрессор и определения того, какой компрессор дает наибольшее сжатие. Кодер с наилучшим сжатием, вероятно, - это кодировщик, обученный на данных, наиболее похожих на неизвестные.

См. Также

Ссылки

Внешние ссылки

Теория информации, выводы и Learning Algorithms, автор David MacKay (2003), дает введение в теорию Шеннона и сжатие данных, включая кодирование Хаффмана и арифметическое кодирование.
Исходное кодирование, Т. Виганд и Х. Шварц (2011).