Стабильная версия | 5-prealpha / 3 августа 2015 г.; 5 лет назад (03.08.2015) |
---|---|
Написано на | Java |
Операционная система | Кросс-платформенная |
Тип | Библиотека изображений |
Лицензия | в стиле BSD |
Веб-сайт | cmusphinx.github.io / wiki / |
Стабильная версия | 5-prealpha / 5 августа 2015 г.; 5 лет назад (05.08.2015) |
---|---|
Написано на | C |
Операционная система | Кросс-платформенная |
Тип | Библиотека изображений |
Лицензия | в стиле BSD |
Веб-сайт | cmusphinx.github.io / wiki / |
CMU Sphinx, также сокращенно называемый Sphinx, - это общий термин для описания группы распознавания речи системы, разработанные в Университете Карнеги-Меллона. В их число входят ряд распознавателей речи (Sphinx 2–4) и тренажер акустической модели (SphinxTrain).
В 2000 году группа Sphinx в Карнеги-Меллон сделала открытый исходный код для нескольких компонентов распознавателя речи, включая Sphinx 2 и более поздний Sphinx 3 (в 2001 году). Речевые декодеры поставляются с акустическими моделями и примерами приложений. Доступные ресурсы включают в себя дополнительное программное обеспечение для обучения акустической модели, компиляцию языковой модели и общественный словарь произношения, cmudict.
Sphinx включает в себя ряд программного обеспечения системы, описанные ниже.
Sphinx - это система распознавания непрерывной речи, независимая от говорящего, использующая скрытые марковские акустические модели (HMM ) и n-грамм статистический язык модель. Его разработал Кай-Фу Ли. Сфинкс отличался возможностью непрерывной речи, независимого от говорящего распознавания большого словаря, возможность которого в то время оспаривалась (1986). Сфинкс представляет только исторический интерес; он был заменен в следующих версиях. В архивной статье подробно описана система.
Быстрый распознаватель, ориентированный на производительность, первоначально разработанный Сюэдонг Хуанг из Карнеги-Меллона и выпущенный как Open-source с Лицензия в стиле BSD на SourceForge от Кевина Лензо на LinuxWorld в 2000 году. Sphinx 2 фокусируется на распознавании в реальном времени, подходящем для разговорных языковых приложений. По сути, он включает в себя такие функции, как указание конца, генерация частичной гипотезы, переключение динамической языковой модели и т. Д. Он используется в диалоговых системах и системах изучения языков. Его можно использовать в компьютерных системах PBX, таких как Asterisk. Код Sphinx 2 также был включен в ряд коммерческих продуктов. Он больше не находится в активной разработке (кроме планового обслуживания). Текущая разработка декодеров реального времени происходит в проекте Pocket Sphinx. Архивная статья описывает систему.
Sphinx 2 использовал полунепрерывное представление для акустического моделирования (т. Е. Для всех моделей используется один набор гауссиан, а отдельные модели представлены как весовой вектор над этими гауссианами.). Sphinx 3 принял распространенное непрерывное представление HMM и использовался в основном для высокоточного распознавания не в реальном времени. Последние разработки (в области алгоритмов и аппаратного обеспечения) сделали Sphinx 3 "почти" в реальном времени, хотя еще не подходящим для критически важных интерактивных приложений. Sphinx 3 находится в стадии активной разработки и вместе со SphinxTrain предоставляет доступ к ряду современных методов моделирования, таких как LDA / MLLT, MLLR и VTLN, которые повышают точность распознавания (см. Описание в статье Распознавание речи этих методов).
Sphinx 4 - это полностью переписанный движок Sphinx с целью предоставить более гибкую основу для исследований в области распознавания речи, полностью написанную на языке программирования Java. Sun Microsystems поддержала разработку Sphinx 4 и внесла свой вклад в проект в области разработки программного обеспечения. Среди участников были сотрудники MERL, MIT и CMU.
Текущие цели развития включают:
Версия Sphinx, которая может использоваться в встроенные системы (например, на базе процессора ARM ). PocketSphinx находится в стадии активной разработки и включает такие функции, как арифметика с фиксированной точкой и эффективные алгоритмы для вычислений GMM.