CMU Sphinx

редактировать
Sphinx4
Стабильная версия 5-prealpha / 3 августа 2015 г.; 5 лет назад (03.08.2015)
Написано наJava
Операционная система Кросс-платформенная
Тип Библиотека изображений
Лицензия в стиле BSD
Веб-сайтcmusphinx.github.io / wiki /
Pocketsphinx
Стабильная версия 5-prealpha / 5 августа 2015 г.; 5 лет назад (05.08.2015)
Написано наC
Операционная система Кросс-платформенная
Тип Библиотека изображений
Лицензия в стиле BSD
Веб-сайтcmusphinx.github.io / wiki /

CMU Sphinx, также сокращенно называемый Sphinx, - это общий термин для описания группы распознавания речи системы, разработанные в Университете Карнеги-Меллона. В их число входят ряд распознавателей речи (Sphinx 2–4) и тренажер акустической модели (SphinxTrain).

В 2000 году группа Sphinx в Карнеги-Меллон сделала открытый исходный код для нескольких компонентов распознавателя речи, включая Sphinx 2 и более поздний Sphinx 3 (в 2001 году). Речевые декодеры поставляются с акустическими моделями и примерами приложений. Доступные ресурсы включают в себя дополнительное программное обеспечение для обучения акустической модели, компиляцию языковой модели и общественный словарь произношения, cmudict.

Sphinx включает в себя ряд программного обеспечения системы, описанные ниже.

Содержание
  • 1 Sphinx
  • 2 Sphinx 2
  • 3 Sphinx 3
  • 4 Sphinx 4
  • 5 PocketSphinx
  • 6 См. Также
  • 7 Ссылки
  • 8 Внешние ссылки
Sphinx

Sphinx - это система распознавания непрерывной речи, независимая от говорящего, использующая скрытые марковские акустические модели (HMM ) и n-грамм статистический язык модель. Его разработал Кай-Фу Ли. Сфинкс отличался возможностью непрерывной речи, независимого от говорящего распознавания большого словаря, возможность которого в то время оспаривалась (1986). Сфинкс представляет только исторический интерес; он был заменен в следующих версиях. В архивной статье подробно описана система.

Sphinx 2

Быстрый распознаватель, ориентированный на производительность, первоначально разработанный Сюэдонг Хуанг из Карнеги-Меллона и выпущенный как Open-source с Лицензия в стиле BSD на SourceForge от Кевина Лензо на LinuxWorld в 2000 году. Sphinx 2 фокусируется на распознавании в реальном времени, подходящем для разговорных языковых приложений. По сути, он включает в себя такие функции, как указание конца, генерация частичной гипотезы, переключение динамической языковой модели и т. Д. Он используется в диалоговых системах и системах изучения языков. Его можно использовать в компьютерных системах PBX, таких как Asterisk. Код Sphinx 2 также был включен в ряд коммерческих продуктов. Он больше не находится в активной разработке (кроме планового обслуживания). Текущая разработка декодеров реального времени происходит в проекте Pocket Sphinx. Архивная статья описывает систему.

Sphinx 3

Sphinx 2 использовал полунепрерывное представление для акустического моделирования (т. Е. Для всех моделей используется один набор гауссиан, а отдельные модели представлены как весовой вектор над этими гауссианами.). Sphinx 3 принял распространенное непрерывное представление HMM и использовался в основном для высокоточного распознавания не в реальном времени. Последние разработки (в области алгоритмов и аппаратного обеспечения) сделали Sphinx 3 "почти" в реальном времени, хотя еще не подходящим для критически важных интерактивных приложений. Sphinx 3 находится в стадии активной разработки и вместе со SphinxTrain предоставляет доступ к ряду современных методов моделирования, таких как LDA / MLLT, MLLR и VTLN, которые повышают точность распознавания (см. Описание в статье Распознавание речи этих методов).

Sphinx 4

Sphinx 4 - это полностью переписанный движок Sphinx с целью предоставить более гибкую основу для исследований в области распознавания речи, полностью написанную на языке программирования Java. Sun Microsystems поддержала разработку Sphinx 4 и внесла свой вклад в проект в области разработки программного обеспечения. Среди участников были сотрудники MERL, MIT и CMU.

Текущие цели развития включают:

  • разработку нового (акустической модели) тренера
  • , реализующего адаптацию динамика (например, MLLR)
  • улучшение управления конфигурацией
  • создание графического пользовательского интерфейса для графического проектирования системы
PocketSphinx

Версия Sphinx, которая может использоваться в встроенные системы (например, на базе процессора ARM ). PocketSphinx находится в стадии активной разработки и включает такие функции, как арифметика с фиксированной точкой и эффективные алгоритмы для вычислений GMM.

См. Также
Ссылки
Внешние ссылки
  • Домашняя страница CMU Sphinx
  • Репозиторий Sphinx на Github следует рассматривать как окончательный источник кода
  • SourceForge, где размещаются старые выпуски и файлы
  • NeXT на Campus Fall 1990 (этот документ имеет формат postscript, сжатый с помощью gzip.) Университет Карнеги-Меллона - Прорыв в распознавании речи и управлении документами, стр. 12-13
Последняя правка сделана 2021-05-13 11:25:19
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте