Кодирование речи

редактировать

Кодирование речи является приложением сжатие данных из цифровых аудиосигналов, содержащих речь. Кодирование речи использует зависящую от речи оценку параметров с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления результирующих смоделированных параметров в компактном потоке битов.

Некоторыми приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). Наиболее широко используемым методом кодирования речи в мобильной телефонии является кодирование с линейным предсказанием (LPC), а в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT)..

Методы, используемые при кодировании речи, аналогичны методам, используемым в сжатии аудиоданных и аудиокодировании, где знания в психоакустике используются для передавать только данные, относящиеся к слуховой системе человека. Например, при кодировании речи голосового диапазона передается только информация в полосе частот от 400 Гц до 3500 Гц, но восстановленный сигнал все еще соответствует разборчивости.

Кодирование речи отличается от других форм звука. кодирование в этой речи является более простым сигналом, чем большинство других аудиосигналов, и доступно гораздо больше статистической информации о свойствах речи. В результате некоторая слуховая информация, имеющая отношение к кодированию звука, может быть ненужной в контексте кодирования речи. При кодировании речи наиболее важным критерием является сохранение разборчивости и «приятности» речи при ограниченном объеме передаваемых данных.

Кроме того, для большинства речевых приложений требуется низкая задержка кодирования, поскольку большие задержки кодирования мешают речевое взаимодействие.

Содержание

1 Категории
2 Пример компандирования, рассматриваемого как форма кодирования речи
3 Современное сжатие речи
- 3.1 Подполя
4 См. также
5 Ссылки
6 Внешние ссылки

Категории

Речевые кодеры бывают двух типов:

Кодеры сигналов
- Временная область: PCM, ADPCM
- Частотная область: кодирование поддиапазона, ATRAC
Вокодеры
- Кодирование с линейным предсказанием (LPC)
- Формантное кодирование

Компандирование выборки, рассматриваемое как форма кодирования речи

С этой точки зрения использовались алгоритмы A-law и μ-law (G.711 ) в традиционной PCM цифровой телефонии можно рассматривать как более ранний предшественник кодирования речи, требующий всего 8 бит на выборку, но дает эффективное разрешение 12 бит. Законы логарифмического компандирования согласуются с человеческим слуховым восприятием в том смысле, что шум малой амплитуды слышен вместе с речевым сигналом низкой амплитуды, но маскируется шумом большой амплитуды. Хотя это привело бы к недопустимым искажениям в музыкальном сигнале, пиковый характер речевых сигналов в сочетании с простой частотной структурой речи в виде периодической формы волны, имеющей единственную основную частоту со случайным добавлением всплески шума делают эти очень простые алгоритмы мгновенного сжатия приемлемыми для речи.

В то время было испробовано множество других алгоритмов, в основном на вариантах дельта-модуляции, но после тщательного рассмотрения разработчики выбрали алгоритмы A-закона / μ-закона. ранних систем цифровой телефонии. На момент разработки их снижение пропускной способности на 33% при очень низкой сложности стало отличным инженерным компромиссом. Их звуковые характеристики остаются приемлемыми, и не было необходимости заменять их в стационарной телефонной сети.

В 2008 году кодек G.711.1, который имеет масштабируемую структуру, был стандартизирован ITU-T. Частота дискретизации входа составляет 16 кГц.

Современное сжатие речи

Большая часть более поздних работ по сжатию речи была мотивирована военными исследованиями цифровой связи для защищенных военных радиостанций, где требовались очень низкие скорости передачи данных для позволяют эффективно работать в агрессивной радиосреде. В то же время было доступно гораздо больше вычислительной мощности в форме схем СБИС, чем было доступно для более ранних методов сжатия. В результате современные алгоритмы сжатия речи могут использовать гораздо более сложные методы, чем были доступны в 1960-х годах, для достижения гораздо более высоких степеней сжатия.

Эти методы были доступны в открытой исследовательской литературе для использования в гражданских приложениях, что позволило создавать цифровые сети мобильной связи с существенно большей пропускной способностью каналов, чем аналоговые системы, которые им предшествовали.

Наиболее широко используемые алгоритмы кодирования речи основаны на кодировании с линейным предсказанием (LPC). В частности, наиболее распространенной схемой кодирования речи является кодирование с линейным предсказанием с кодовым возбуждением (CELP ) на основе LPC, которое используется, например, в стандарте GSM.. В CELP моделирование разделено на два этапа: этап линейного прогнозирования, который моделирует спектральную огибающую, и модель остатка на основе кодовой книги модели линейного прогнозирования. В CELP коэффициенты линейного предсказания (LPC) вычисляются и квантуются, обычно как линейные спектральные пары (LSP). В дополнение к фактическому речевому кодированию сигнала часто необходимо использовать канальное кодирование для передачи, чтобы избежать потерь из-за ошибок передачи. Обычно методы кодирования речи и кодирования каналов должны выбираться попарно, причем наиболее важные биты в потоке речевых данных защищаются более надежным канальным кодированием, чтобы получить наилучшие общие результаты кодирования.

модифицированное дискретное косинусное преобразование (MDCT), тип алгоритма дискретного косинусного преобразования (DCT), было адаптировано в алгоритм кодирования речи под названием LD-MDCT, используется для формата AAC-LD, представленного в 1999 году. С тех пор MDCT широко применяется в приложениях передачи голоса по IP (VoIP), таких как G.729.1 широкополосный аудиокодек, представленный в 2006 году, Apple Facetime (с использованием AAC-LD), представленный в 2010 году, и CELT кодек представлен в 2011 году.

Opus - это бесплатное программное обеспечение речевой кодер. Он сочетает в себе алгоритмы MDCT и LPC сжатия звука. Он широко используется для вызовов VoIP в WhatsApp. Игровая консоль PlayStation 4 также использует кодек CELT / Opus для своего системного чата PlayStation Network.

Codec2 - еще одно бесплатное программное обеспечение речевой кодер, который обеспечивает очень хорошее сжатие до 700 бит / с.

Подполя

Широкополосное аудио кодирование

Линейное прогнозирующее кодирование (LPC)
- AMR-WB для WCDMA сетей
- VMR-WB для CDMA2000 сетей
- Speex, IP-MR, SILK и Opus для передачи голоса по IP (VoIP) и видеоконференцсвязи
Модифицированное дискретное косинусное преобразование (MDCT)
- AAC- LD, G.722.1, G.729.1, CELT и Opus для VoIP и видеоконференцсвязи
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM)
- G.722 для VoIP

Узкополосное кодирование звука

LPC
- FNBDT для военных приложений
- SMV для CDMA сети
- Full Rate, Half Rate, EFR и AMR для GSM сетей
- G. 723.1, G.728, G.729, G.729.1 и iLBC для VoIP или видеоконференцсвязи
ADPCM
- G.726 для VoIP

См. также

Ссылки

Внешние ссылки