CMU Sphinx

редактировать

Sphinx4

Стабильная версия	5-prealpha / 3 августа 2015 г.; 5 лет назад (03.08.2015)

Написано на	Java
Операционная система	Кросс-платформенная
Тип	Библиотека изображений
Лицензия	в стиле BSD
Веб-сайт	cmusphinx.github.io / wiki /

Pocketsphinx

Стабильная версия	5-prealpha / 5 августа 2015 г.; 5 лет назад (05.08.2015)

Написано на	C
Операционная система	Кросс-платформенная
Тип	Библиотека изображений
Лицензия	в стиле BSD
Веб-сайт	cmusphinx.github.io / wiki /

CMU Sphinx, также сокращенно называемый Sphinx, - это общий термин для описания группы распознавания речи системы, разработанные в Университете Карнеги-Меллона. В их число входят ряд распознавателей речи (Sphinx 2–4) и тренажер акустической модели (SphinxTrain).

В 2000 году группа Sphinx в Карнеги-Меллон сделала открытый исходный код для нескольких компонентов распознавателя речи, включая Sphinx 2 и более поздний Sphinx 3 (в 2001 году). Речевые декодеры поставляются с акустическими моделями и примерами приложений. Доступные ресурсы включают в себя дополнительное программное обеспечение для обучения акустической модели, компиляцию языковой модели и общественный словарь произношения, cmudict.

Sphinx включает в себя ряд программного обеспечения системы, описанные ниже.

Содержание

1 Sphinx
2 Sphinx 2
3 Sphinx 3
4 Sphinx 4
5 PocketSphinx
6 См. Также
7 Ссылки
8 Внешние ссылки

Sphinx

Sphinx - это система распознавания непрерывной речи, независимая от говорящего, использующая скрытые марковские акустические модели (HMM ) и n-грамм статистический язык модель. Его разработал Кай-Фу Ли. Сфинкс отличался возможностью непрерывной речи, независимого от говорящего распознавания большого словаря, возможность которого в то время оспаривалась (1986). Сфинкс представляет только исторический интерес; он был заменен в следующих версиях. В архивной статье подробно описана система.

Sphinx 2

Быстрый распознаватель, ориентированный на производительность, первоначально разработанный Сюэдонг Хуанг из Карнеги-Меллона и выпущенный как Open-source с Лицензия в стиле BSD на SourceForge от Кевина Лензо на LinuxWorld в 2000 году. Sphinx 2 фокусируется на распознавании в реальном времени, подходящем для разговорных языковых приложений. По сути, он включает в себя такие функции, как указание конца, генерация частичной гипотезы, переключение динамической языковой модели и т. Д. Он используется в диалоговых системах и системах изучения языков. Его можно использовать в компьютерных системах PBX, таких как Asterisk. Код Sphinx 2 также был включен в ряд коммерческих продуктов. Он больше не находится в активной разработке (кроме планового обслуживания). Текущая разработка декодеров реального времени происходит в проекте Pocket Sphinx. Архивная статья описывает систему.

Sphinx 3

Sphinx 2 использовал полунепрерывное представление для акустического моделирования (т. Е. Для всех моделей используется один набор гауссиан, а отдельные модели представлены как весовой вектор над этими гауссианами.). Sphinx 3 принял распространенное непрерывное представление HMM и использовался в основном для высокоточного распознавания не в реальном времени. Последние разработки (в области алгоритмов и аппаратного обеспечения) сделали Sphinx 3 "почти" в реальном времени, хотя еще не подходящим для критически важных интерактивных приложений. Sphinx 3 находится в стадии активной разработки и вместе со SphinxTrain предоставляет доступ к ряду современных методов моделирования, таких как LDA / MLLT, MLLR и VTLN, которые повышают точность распознавания (см. Описание в статье Распознавание речи этих методов).

Sphinx 4

Sphinx 4 - это полностью переписанный движок Sphinx с целью предоставить более гибкую основу для исследований в области распознавания речи, полностью написанную на языке программирования Java. Sun Microsystems поддержала разработку Sphinx 4 и внесла свой вклад в проект в области разработки программного обеспечения. Среди участников были сотрудники MERL, MIT и CMU.

Текущие цели развития включают:

разработку нового (акустической модели) тренера
, реализующего адаптацию динамика (например, MLLR)
улучшение управления конфигурацией
создание графического пользовательского интерфейса для графического проектирования системы

PocketSphinx

Версия Sphinx, которая может использоваться в встроенные системы (например, на базе процессора ARM ). PocketSphinx находится в стадии активной разработки и включает такие функции, как арифметика с фиксированной точкой и эффективные алгоритмы для вычислений GMM.

См. Также

Ссылки

Внешние ссылки

Домашняя страница CMU Sphinx
Репозиторий Sphinx на Github следует рассматривать как окончательный источник кода
SourceForge, где размещаются старые выпуски и файлы
NeXT на Campus Fall 1990 (этот документ имеет формат postscript, сжатый с помощью gzip.) Университет Карнеги-Меллона - Прорыв в распознавании речи и управлении документами, стр. 12-13