Обработка речи

редактировать

Обработка речи - это изучение речи сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработка речи может рассматриваться как частный случай обработки цифрового сигнала, применяемого к речевым сигналам. Аспекты обработки речи включают в себя сбор, обработку, хранение, передачу и вывод речевых сигналов. Входные данные называются распознавание речи, а выходные данные - синтез речи.

Содержание

1 История
2 Методы
- 2.1 Динамическое преобразование времени
- 2.2 Скрытые марковские модели
- 2.3 Искусственные нейронные сети
3 Приложения
4 См. Также
5 Ссылки

История

Ранние попытки обработки и распознавания речи были в первую очередь сосредоточены на понимании нескольких простых фонетические элементы, такие как гласные. В 1952 году трое исследователей Bell Labs, Стивен. Балашек, Р. Биддульф и К. Х. Дэвис разработали систему, которая могла распознавать цифры, произносимые одним говорящим.

Линейное прогнозирующее кодирование (LPC), алгоритм обработки речи, был впервые предложен Фумитада Итакура из Университета Нагоя и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Дальнейшие разработки в технологии LPC были сделаны Бишну С. Атал и Манфред Р. Шредер в Bell Labs в 1970-е годы. LPC был основой для технологии передачи голоса по IP (VoIP), а также для микросхем синтезатора речи, таких как микросхемы LPC Speech Chips от Texas Instruments, используемые в игрушки Speak Spell 1978 года.

Одним из первых коммерчески доступных продуктов для распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другие в Bell Labs использовались ATT в их службе обработки вызовов с распознаванием голоса для маршрутизации вызовов без участия оператора. К этому моменту словарный запас этих систем был больше, чем средний человеческий словарь.

К началу 2000-х годов доминирующая стратегия обработки речи начала сдвигаться от скрытых марковских моделей к более современным нейронные сети и глубокое обучение.

Методы

Динамическое искажение времени

Динамическое искажение времени (DTW) - это алгоритм для измерения сходство между двумя временными последовательностями, которые могут различаться по скорости. В общем, DTW - это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное совпадение обозначается совпадением, которое удовлетворяет всем ограничениям и правилам и имеет минимальную стоимость, где стоимость вычисляется как сумма абсолютных различий для каждой согласованной пары индексов между их значениями.

Скрытые марковские модели

Скрытые марковские модели могут быть представлены как простейшая динамическая байесовская сеть. Цель алгоритма - оценить скрытую переменную x (t) по списку наблюдений y (t). Применяя свойство Маркова, условное распределение вероятностей скрытой переменной x (t) в момент времени t, учитывая значения скрытой переменной x в любое время, зависит только от значение скрытой переменной x (t - 1). Точно так же значение наблюдаемой переменной y (t) зависит только от значения скрытой переменной x (t) (оба в момент времени t).

Искусственные нейронные сети

Искусственные нейронные сети Сеть (ИНС) основана на наборе связанных блоков или узлов, называемых искусственными нейронами, которые свободно моделируют нейроны в биологическом мозге. Каждое соединение, как и синапсы в биологическом мозге, может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, который получает сигнал, может обработать его, а затем передать сигнал дополнительным искусственным нейронам, подключенным к нему. В обычных реализациях ИНС сигнал в соединении между искусственными нейронами представляет собой действительное число, а выходной сигнал каждого искусственного нейрона вычисляется некоторой нелинейной функцией суммы его входов.

Приложения

См. Также

Ссылки