Кодирование гармонического вектора возбуждения, сокращенно HVXC - это алгоритм кодирования речи , указанный в MPEG-4 Part 3 (MPEG- 4 Audio) стандарт для кодирования речи с очень низкой скоростью передачи данных. HVXC поддерживает скорость передачи данных 2 и 4 кбит / с в режиме фиксированной и переменной скорости передачи данных и частоту дискретизации 8 кГц. Он также работает с более низкой скоростью передачи данных, например 1,2–1,7 кбит / с, с использованием метода переменной скорости передачи данных. Общая алгоритмическая задержка для кодера и декодера составляет 36 мс.
Он был опубликован как подраздел 2 стандарта ISO / IEC 14496-3 : 1999 (MPEG-4 Audio) в 1999. Расширенная версия HVXC была опубликована в MPEG-4 Audio Version 2 (ISO / IEC 14496-3: 1999 / Amd 1: 2000).
MPEG-4 Набор инструментов кодирования естественной речи использует два алгоритма: HVXC и CELP (линейное прогнозирование с кодовым возбуждением ). HVXC используется с низкой скоростью передачи данных 2 или 4 кбит / с. Скорость передачи данных выше 4 кбит / с в дополнение к 3,85 кбит / с покрывается CELP.
HVXC использует кодирование с линейным прогнозированием (LPC) с поблочная адаптация каждые 20 мсек. Параметры LPC преобразуются в коэффициенты линейной спектральной пары (LSP), которые квантуются совместно. Остаточный сигнал LPC классифицируется как вокализованный или невокализованный. В случае вокализованной речи остаточный сигнал кодируется в параметрическом представлении (работает как вокодер ), тогда как в случае невокализованной речи остаточный сигнал квантуется (таким образом, работая как гибридный речевой кодек).
В вокализованных сегментах остаточный сигнал представлен двумя параметрами: периодом основного тона и спектральной огибающей. Период основного тона оценивается из пиковых значений автокорреляции остаточного сигнала. В этом процессе остаточный сигнал сравнивается со смещенными копиями самого себя, и сдвиг, который дает наибольшее сходство по мере линейной зависимости, идентифицируется как период основного тона. Спектральная огибающая представлена набором значений амплитуды, по одному на гармонику. Чтобы извлечь эти значения, остаточный сигнал LPC преобразуется в DFT -домен. Спектр DFT сегментирован на полосы, по одной полосе на гармонику. Полоса частот для m-й гармоники состоит из DFT-коэффициентов от (m-1/2) ω 0 до (m + 1/2) ω 0, ω 0 - частота основного тона. Значение амплитуды m-й гармоники выбирается так, чтобы оптимально представить эти DFT-коэффициенты. В этом процессе информация о фазе отбрасывается. Затем спектральная огибающая кодируется с использованием взвешенного векторного квантования с переменной размерностью. Этот процесс также называется Harmonic VQ .
. Чтобы сделать речь со смесью вокализованного и невокализованного возбуждения более естественной и гладкой, используются три различных режима вокализованной речи (Mixed Voiced-1, Mixed Voiced-2, Full Звонкие) дифференцированы. Степень вокализации определяется значением нормализованной автокорреляционной функции при сдвиге на один период основного тона. В зависимости от выбранного режима к синтезированному гармоническому сигналу декодером добавляется различное количество полосового гауссовского шума.
Невокализованные сегменты кодируются в соответствии со схемой CELP, которая также упоминается как кодирование с векторным возбуждением ( VXC). Кодирование CELP в HVXQ выполняется с использованием только стохастической кодовой книги. В других кодеках CELP динамическая кодовая книга используется дополнительно для выполнения долгосрочного предсказания голосовых сегментов. Однако, поскольку HVXC не использует CELP для вокализованных сегментов, динамическая кодовая книга не включена в конструкцию.