Кодирование возбуждения гармоническим вектором

редактировать
Стандарт сжатия звука

Кодирование гармонического вектора возбуждения, сокращенно HVXC - это алгоритм кодирования речи , указанный в MPEG-4 Part 3 (MPEG- 4 Audio) стандарт для кодирования речи с очень низкой скоростью передачи данных. HVXC поддерживает скорость передачи данных 2 и 4 кбит / с в режиме фиксированной и переменной скорости передачи данных и частоту дискретизации 8 кГц. Он также работает с более низкой скоростью передачи данных, например 1,2–1,7 кбит / с, с использованием метода переменной скорости передачи данных. Общая алгоритмическая задержка для кодера и декодера составляет 36 мс.

Он был опубликован как подраздел 2 стандарта ISO / IEC 14496-3 : 1999 (MPEG-4 Audio) в 1999. Расширенная версия HVXC была опубликована в MPEG-4 Audio Version 2 (ISO / IEC 14496-3: 1999 / Amd 1: 2000).

MPEG-4 Набор инструментов кодирования естественной речи использует два алгоритма: HVXC и CELP (линейное прогнозирование с кодовым возбуждением ). HVXC используется с низкой скоростью передачи данных 2 или 4 кбит / с. Скорость передачи данных выше 4 кбит / с в дополнение к 3,85 кбит / с покрывается CELP.

Содержание
  • 1 Технология
    • 1.1 Линейное прогнозирующее кодирование
    • 1.2 Голосовое (гармоническое) остаточное кодирование
    • 1.3 Безголосое (VXC) Остаточное кодирование
  • 2 См. Также
  • 3 Ссылки
Технология

Кодирование с линейным прогнозированием

HVXC использует кодирование с линейным прогнозированием (LPC) с поблочная адаптация каждые 20 мсек. Параметры LPC преобразуются в коэффициенты линейной спектральной пары (LSP), которые квантуются совместно. Остаточный сигнал LPC классифицируется как вокализованный или невокализованный. В случае вокализованной речи остаточный сигнал кодируется в параметрическом представлении (работает как вокодер ), тогда как в случае невокализованной речи остаточный сигнал квантуется (таким образом, работая как гибридный речевой кодек).

Вокализованное (гармоническое) остаточное кодирование

В вокализованных сегментах остаточный сигнал представлен двумя параметрами: периодом основного тона и спектральной огибающей. Период основного тона оценивается из пиковых значений автокорреляции остаточного сигнала. В этом процессе остаточный сигнал сравнивается со смещенными копиями самого себя, и сдвиг, который дает наибольшее сходство по мере линейной зависимости, идентифицируется как период основного тона. Спектральная огибающая представлена ​​набором значений амплитуды, по одному на гармонику. Чтобы извлечь эти значения, остаточный сигнал LPC преобразуется в DFT -домен. Спектр DFT сегментирован на полосы, по одной полосе на гармонику. Полоса частот для m-й гармоники состоит из DFT-коэффициентов от (m-1/2) ω 0 до (m + 1/2) ω 0, ω 0 - частота основного тона. Значение амплитуды m-й гармоники выбирается так, чтобы оптимально представить эти DFT-коэффициенты. В этом процессе информация о фазе отбрасывается. Затем спектральная огибающая кодируется с использованием взвешенного векторного квантования с переменной размерностью. Этот процесс также называется Harmonic VQ .

. Чтобы сделать речь со смесью вокализованного и невокализованного возбуждения более естественной и гладкой, используются три различных режима вокализованной речи (Mixed Voiced-1, Mixed Voiced-2, Full Звонкие) дифференцированы. Степень вокализации определяется значением нормализованной автокорреляционной функции при сдвиге на один период основного тона. В зависимости от выбранного режима к синтезированному гармоническому сигналу декодером добавляется различное количество полосового гауссовского шума.

Безголосовое (VXC) остаточное кодирование

Невокализованные сегменты кодируются в соответствии со схемой CELP, которая также упоминается как кодирование с векторным возбуждением ( VXC). Кодирование CELP в HVXQ выполняется с использованием только стохастической кодовой книги. В других кодеках CELP динамическая кодовая книга используется дополнительно для выполнения долгосрочного предсказания голосовых сегментов. Однако, поскольку HVXC не использует CELP для вокализованных сегментов, динамическая кодовая книга не включена в конструкцию.

См. Также
Ссылки
Последняя правка сделана 2021-05-22 13:52:58
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте