Кодирование с линейным прогнозированием

редактировать

Метод обработки аудиосигнала

Linear pre диктивное кодирование (LPC ) - это метод, используемый в основном в обработке аудиосигнала и обработке речи для представления спектральной огибающей цифровой сигнал речи в сжатой форме с использованием информации линейной модели прогнозирования. Это один из самых мощных методов анализа речи и один из самых полезных методов кодирования речи хорошего качества с низкой скоростью передачи данных, обеспечивающий высокоточные оценки параметров речи. LPC - это наиболее широко используемый метод кодирования речи и синтеза речи.

Содержание

1 Обзор
2 Ранняя история
3 Представления коэффициентов LPC
4 Приложения
5 См. Также
6 Примечания
7 Ссылки
8 Дополнительная литература
9 Внешние ссылки

Обзор

LPC начинается с предположения, что речевой сигнал генерируется зуммер на конце трубки (звонкие звуки), иногда добавляемые шипящие и хлопающие звуки (свистящие и взрывные звуки). Несмотря на кажущуюся грубость, эта модель на самом деле является близким приближением к реальности производства речи. Голосовая щель (пространство между голосовыми складками) производит гудение, которое характеризуется своей интенсивностью (громкость ) и частотой (высота звука). голосовой тракт (горло и рот) образует трубку, которая характеризуется своими резонансами; эти резонансы приводят к возникновению формант или расширенных полос частот в производимом звуке. Шипение и хлопки производятся языком, губами и глоткой во время свистящих и взрывных звуков.

LPC анализирует речевой сигнал, оценивая форманты, удаляя их эффекты из речевого сигнала и оценивая интенсивность и частоту оставшегося гудения. Процесс удаления формант называется обратной фильтрацией, а оставшийся сигнал после вычитания отфильтрованного смоделированного сигнала называется остатком.

Числа, которые описывают интенсивность и частоту гудения, формант и остаточного сигнала, могут быть сохранены или переданы в другое место. LPC синтезирует речевой сигнал, обращая процесс: используйте параметры гудения и остаток для создания исходного сигнала, используйте форманты для создания фильтра (который представляет трубку) и пропустите источник через фильтр, что приведет к речи.

Поскольку речевые сигналы меняются со временем, этот процесс выполняется на коротких фрагментах речевого сигнала, которые называются кадрами; обычно от 30 до 50 кадров в секунду дает разборчивую речь с хорошим сжатием.

Ранняя история

Линейное предсказание (оценка сигнала) восходит как минимум к 1940-м годам, когда Норберт Винер разработал математическую теорию для расчета лучших фильтров и предикторы для обнаружения сигналов, скрытых в шуме. Вскоре после того, как Клод Шеннон установил общую теорию кодирования, C. Чапин Катлер, Бернард М. Оливер и Генри К. Харрисон. Питер Элиас в 1955 году опубликовал две статьи по предсказательному кодированию сигналов.

Линейные предикторы применялись к анализу речи независимо Фумитада Итакура из Университета Нагоя и Сюдзо Сайто из Nippon Telegraph and Telephone в 1966 г. и в 1967 г. Бишну С. Атал, Манфред Р. Шредер и Джон Бург. Итакура и Сайто описали статистический подход, основанный на оценке максимального правдоподобия ; Атал и Шредер описали подход адаптивного линейного предсказателя ; Бург изложил подход, основанный на принципе максимальной энтропии.

В 1969 году Итакура и Сайто представили метод, основанный на частичной корреляции (PARCOR), Глен Каллер предложил метод реального времени. речевого кодирования и Бишну С. Атал представил речевой кодер LPC на Ежегодном собрании Акустического общества Америки. В 1971 году Philco-Ford продемонстрировал LPC в реальном времени с использованием 16-битного оборудования LPC; было продано четыре единицы. Технологию LPC разработали Бишну Атал и Манфред Шредер в течение 1970–1980-х годов. В 1978 году Атал и Вишванат и др. BBN разработала первый алгоритм LPC с переменной скоростью. В том же году Атал и Манфред Р. Шредер в Bell Labs предложили речевой LPC-кодек , названный адаптивным предсказательным кодированием, который использовал психоакустический алгоритм кодирования, использующий маскирующие свойства человеческого уха. Позже это стало основой для метода перцептивного кодирования, используемого форматом MP3 сжатия звука, введенным в 1993 году. Линейное предсказание с кодовым возбуждением (CELP) был разработан Schroeder и Atal в 1985 году.

LPC является основой для технологии передачи голоса по IP (VoIP). В 1972 году Боб Кан из ARPA вместе с Джимом Форги (Lincoln Laboratory, LL) и Дэйвом Уолденом (BBN Technologies ) начали первые разработки в области пакетной речи, которые в конечном итоге приведут к технологии передачи голоса по IP. Согласно неофициальной истории Лаборатории Линкольна, в 1973 году Эд Хофстеттер реализовал первый LPC в реальном времени со скоростью 2400 бит / с. В 1974 году была осуществлена первая двусторонняя пакетная речевая связь LPC в реальном времени через ARPANET со скоростью 3500 бит / с между Каллер-Харрисон и лабораторией Линкольна. В 1976 году была проведена первая конференция LPC по ARPANET с использованием сетевого голосового протокола между Каллером-Харрисоном, ISI, SRI и LL со скоростью 3500 бит / с.

Представления коэффициентов LPC

LPC часто используется для передачи информации о спектральной огибающей, и поэтому он должен быть устойчивым к ошибкам передачи. Передача коэффициентов фильтра напрямую (см. линейное предсказание для определения коэффициентов) нежелательна, поскольку они очень чувствительны к ошибкам. Другими словами, очень маленькая ошибка может исказить весь спектр или, что еще хуже, небольшая ошибка может сделать фильтр предсказания нестабильным.

Существуют более сложные представления, такие как логарифмические отношения площадей (LAR), разложение спектральных пар линий (LSP) и коэффициенты отражения. Среди них особенно популярно разложение LSP, поскольку оно обеспечивает стабильность предсказателя, а спектральные ошибки являются локальными для небольших отклонений коэффициентов.

Приложения

LPC - это наиболее широко используемый метод кодирования речи и синтеза речи. Обычно он используется для анализа речи и ресинтеза. Телефонные компании используют его как форму сжатия голоса, например, в стандарте GSM. Он также используется для защищенной беспроводной связи, где голос должен быть оцифрован, зашифрован и отправлен по узкому голосовому каналу; Ранним примером этого является синтез LPC Навахо I.

правительства США, который может быть использован для создания вокодеров, в которых музыкальные инструменты используются в качестве сигнала возбуждения для изменяющегося во времени фильтра, оцениваемого по данным певца. речь. Это довольно популярно в электронной музыке. Пол Лански создал известную компьютерную музыку notjustmoreidlechatter, используя кодирование с линейным предсказанием. [1] LPC 10-го порядка использовался в популярной обучающей игрушке Speak Spell 1980-х годов.

Предикторы LPC используются в аудиокодеке Shorten, MPEG-4 ALS, FLAC, SILK и других аудиокодеки без потерь.

LPC уделяется некоторое внимание как инструменту для использования в тональном анализе скрипок и других струнных музыкальных инструментов.

См. Также

Примечания

Ссылки

Роберт М. Грей, Общество обработки сигналов IEEE, Программа выдающихся лекторов

Дополнительная литература

О'Шонесси, Д. (1988). «Линейное предсказательное кодирование». Возможности IEEE. 7 (1): 29–32. doi : 10.1109 / 45.1890. S2CID 12786562.
Банди, Алан ; Валлен, Линкольн (1984). Обобщение теоремы Гливенко-Кантелли. Символическое вычисление. п. 61. doi : 10.1007 / 978-3-642-96868-6_123. ISBN 978-3-540-13938-6.
Эль-Джаруди, Амро (2003). «Линейное прогнозное кодирование». Энциклопедия телекоммуникаций Wiley. Энциклопедия телекоммуникаций. doi : 10.1002 / 0471219282.eot155. ISBN 978-0471219286.

Внешние ссылки

программное обеспечение для обучения LPC-анализу / синтезу в реальном времени
30 лет спустя Dr Richard Wiggins Talks Speak Spell development