Теория скоростей – искажений является основным разделом теории информации, которая обеспечивает теоретические основы для сжатия данных с потерями ; он решает проблему определения минимального количества битов на символ, измеряемого скоростью R, которое должно передаваться по каналу, так что источник (входной сигнал) может быть приблизительно восстановлен в приемнике (выходной сигнал) без превышения ожидаемое искажение D.
Теория искажения скорости дает аналитическое выражение того, насколько сжатие может быть достигнуто с использованием методов сжатия с потерями. Многие из существующих методов сжатия звука, речи, изображений и видео имеют процедуры преобразования, квантования и распределения битовой скорости, в которых используется общая форма функций скорость-искажение.
Теория искажения скорости была создана Клодом Шенноном в его фундаментальной работе по теории информации.
В теории искажений скорость обычно понимается как количество бит на выборку данных, которая должна быть сохранена или передана. Понятие искажения является предметом постоянных дискуссий. В самом простом случае (который фактически используется в большинстве случаев) искажение определяется как ожидаемое значение квадрата разницы между входным и выходным сигналами (то есть среднеквадратичная ошибка ). Однако, поскольку мы знаем, что большинство методов сжатия с потерями работают с данными, которые будут восприниматься потребителями (прослушивание музыки, просмотр изображений и видео), мера искажения предпочтительно должна быть смоделирована на человеческое восприятие и, возможно, эстетика : так же, как и использование вероятности в сжатии без потерь, меры искажения в конечном итоге могут быть идентифицированы с функции потерь, используемые в байесовской оценке и теории принятия решений. При сжатии звука модели восприятия (и, следовательно, меры искажения восприятия) относительно хорошо разработаны и обычно используются в таких методах сжатия, как MP3 или Vorbis, но часто их нелегко включить в коэффициент –Теория искажений. При сжатии изображений и видео модели человеческого восприятия менее развиты, и включение в них в основном ограничивается взвешиванием JPEG и MPEG (квантование, нормализация ) матрица.
Функции искажения измеряют стоимость представления символа приближенным символом . Типичными функциями искажения являются искажение Хэмминга и искажение квадратичной ошибки.
Функции, которые связывают скорость и искажение, находятся как решение следующей задачи минимизации:
Здесь , иногда называемый тестовым каналом, - это условная функция плотности вероятности (PDF) выхода канала связи (сжатый сигнал) для заданного входа (исходный сигнал) и - это взаимная информация между и , определенная как
где и - энтропия выходного сигнала Y и условная энтропия выходного сигнала для входного сигнала, соответственно:
Проблема также может быть сформулирована как искажение - функция скорости, где мы находим нижнюю границу по достижимым искажениям для данного ограничения скорости. Соответствующее выражение:
Эти две формулировки приводят к функциям, обратным друг другу.
Взаимная информация может пониматься как мера «предшествующей» неопределенности получателя в отношении сигнала отправителя (H (Y)), уменьшенной за счет неопределенности, которая остается после получения информации о сигнале отправителя (). Конечно, уменьшение неопределенности происходит из-за переданного количества информации, а именно: .
В качестве примера, в случае, если отсутствует связь, тогда и . В качестве альтернативы, если канал связи идеален и принятый сигнал идентичен сигналу у отправителя, тогда и .
В определении функции "скорость – искажение" и - это искажение между и для данного и предписанного максимума искажения соответственно. Когда мы используем среднеквадратичную ошибку в качестве меры искажения, мы имеем (для амплитуды - непрерывных сигналов ):
Как показывают приведенные выше уравнения, для вычисления функции "скорость – искажение" требуется стохастическое описание входных данных в терминах PDF , а затем направлен на поиск условного PDF , которые минимизируют скорость для данного искажения . Эти определения могут быть сформулированы с точки зрения теории меры для учета дискретных и смешанных случайных величин.
аналитическое решение этой задачи минимизации часто бывает трудно получить, за исключением некоторых случаев, для которых мы предлагаем два наиболее известных примера. Известно, что функция скорость – искажение любого источника подчиняется нескольким фундаментальным свойствам, наиболее важными из которых являются то, что он непрерывный, монотонно убывающий выпуклый (U) function и, таким образом, форма функции в примерах является типичной (даже измеренные функции скорость – искажение в реальной жизни имеют тенденцию иметь очень похожие формы).
Хотя аналитических решений этой проблемы мало, существуют верхние и нижние границы этих функций, включая знаменитую (SLB), которая в случае квадратичной ошибки и источников без памяти утверждает, что для произвольных источников с конечным дифференциалом энтропия,
где h (D) - это дифференциальная энтропия гауссовской случайной величины с дисперсией D. Эта нижняя граница может быть расширена для источников с памятью и другими мерами искажения. Одной из важных особенностей SLB является то, что он асимптотически плотный в режиме низких искажений для широкого класса источников и в некоторых случаях фактически совпадает с функцией скорость – искажение. Нижние границы Шеннона обычно могут быть найдены, если искажение между любыми двумя числами может быть выражено как функция разницы между значениями этих двух чисел.
Алгоритм Блахута – Аримото, совместно изобретенный Ричардом Блаутом, представляет собой элегантный итерационный метод для численного получения функций скорость – искажение произвольного конечного алфавита ввода / вывода. источников, и была проделана большая работа по его распространению на более общие примеры проблем.
При работе со стационарными источниками с памятью необходимо изменить определение функции искажения скорости, и это следует понимать в смысле ограничения, принятого для последовательностей увеличивающейся длины.
где
и
, где верхний индекс обозначает полную последовательность до этого времени, а нижний индекс 0 указывает начальное состояние.
Если предположить, что является Gaussian случайная величина с дисперсией , и если мы предположим, что последовательные выборки сигнала являются стохастически независимыми (или, что эквивалентно, источник без памяти, или сигнал некоррелирован), мы находим следующее аналитическое выражение для функции скорость – искажение:
На следующем рисунке показано, как выглядит эта функция:
Теория скоростного искажения говорит нам, что« не существует системы сжатия, работающей за пределами серой области. Чем ближе практическая система сжатия к красной (нижней) границе, тем лучше она работает. Как правило, эта граница может быть достигнута только путем увеличения параметра длины блока кодирования. Тем не менее, даже при единичной длине блока часто можно найти хорошие (скалярные) квантователи, которые работают на расстояниях от функции скорость-искажение, которые имеют практическое значение.
Эта функция скорость-искажение верна только для гауссовых источников без памяти. Известно, что t Источник Гаусса является наиболее "трудным" для кодирования: для данной среднеквадратичной ошибки требуется наибольшее количество битов. Производительность практической системы сжатия, работающей, скажем, с изображениями, вполне может быть ниже показанной нижней границы .
Функция скорости-искажения случайной величины Бернулли с искажением Хэмминга определяется выражением:
где обозначает двоичную энтропийную функцию.
График функции скорости-искажения для :
Предположим, мы хотим передать пользователю информацию об источнике с искажением, не превышающим D. Теория скоростных искажений говорит нам, что по крайней мере бит / символ информации из источника должен достигнуть пользователя. Мы также знаем из теоремы Шеннона о кодировании каналов, что если энтропия источника составляет H бит / символ, а пропускная способность канала равна C (где