Распознавание речи

редактировать
Автоматическое преобразование разговорной речи в тексте

Распознавание речи - это междисциплинарное подполе информатика и компьютерная лингвистика, которая разрабатывает методологии и технологии, позволяющие распознавать и переводить разговорный язык в текст с помощью компьютеров. Он также известен как автоматическое распознавание речи (ASR ), компьютерное распознавание речи или преобразование речи в тексте (STT ). Он объединяет знания и исследования в областях информатика, лингвистика и компьютерная инженерия.

Некоторые системы распознавания речи требуют «обучения» (также называемого «зачислением»), когда отдельный говорящий текст читает или выделенный словарь в системе. Система анализирует конкретный голос человека и использует его для точной распознавания речи этого человека, что приводит к повышению точности. Системы, в которых используется обучение, называемые системы, используемые от говорящего. Системы, использующие обучение, называются «зависимыми от говорящего».

Приложения для распознавания речи включают голосовые пользовательские интерфейсы, такие как голосовой набор (например, «позвонить домой»), маршрутизацию звонка (например, «Я хотел бы сделать обратный вызов»), управление домотиком, поиск по ключевым словам (например, поиск подкаста, в котором были введены данные ради слова), простой ввод данных (например, ввод кредитной карты), подготовка произведенного номера кредитной карты (например, определение номера кредитной карты), определение характеристики динамика, преобразование речи в текст (например, текстовые процессоры или электронные письма ) и самолет (обычно называемый прямым голосовым вводом ).

Термин распознавание или идентификация говорящего относится к личности говорящего, а не к тому, что он говорит. Распознавание говорящего может упростить задачу перевода речи в системах, которые были обучены на голосе конкретного человека, или его можно использовать для аутентификации или проверки личности говорящего в рамках процесса безопасности.

С технологической точки зрения, распознавание речи имеет долгую историю с территориями волнами инноваций. Совсем недавно в этой области появились достижения в области глубокого обучения и больших данных. Глобальное внедрение в отрасли различных методов глубокого обучения при разработке и развертывании систем распознавания речи, свидетельствует об успехах только всплеск академических статей в этой области.

Содержание
  • 1 История
    • 1.1 До 1970 года
    • 1.2 1970–1990
    • 1.3 Практическое распознавание речи
      • 1.3.1 2000-е годы
      • 1.3.2 2010-е годы
  • 2 Модели, методы и алгоритмы
    • 2.1 Скрытые марковские модели
    • 2.2 Распознавание речи на основе преобразования времени (DTW)
    • 2.3 Нейронные сети
      • 2.3.1 Глубокие и рекуррентные нейронные сети с прямой связью
    • 2.4 Сквозные -окончить автоматическое распознавание речи
  • 3 Приложения
    • 3.1 Автомобильные системы
    • 3.2 Здравоохранение
      • 3.2.1 Медицинская документация
      • 3.2.2 Терапевтическое использование
    • 3.3 Военное дело
      • 3.3. 1 Высокопроизводительный истребитель
      • 3.3.2 Вертолеты
      • 3.3.3 Обучение авиадиспетчеров
    • 3.4 Телефония и другие области
    • 3.5 Использование в образовании и повседневной жизни
    • 3.6 Люди с ограниченными возможностями
    • 3.7 Другие приложения
  • 4 Производительность
    • 4.1 Точность
    • 4.2 Проблемы безопасности
  • 5 Дополнительная информация
    • 5.1 Конференции и журналы
    • 5.2 Книги
    • 5.3 Программное обеспечение
  • 6 См. Также
  • 7 Ссылки
  • 8 Дополнительная литература
  • 9 Внешние ссылки
История

Ключевые области роста: объем словарного запаса, независимость говорящего и скорость обработки.

До 1970 г.

Радж Редди был первым, кто начал распознавать непрерывную речь в аспиранта Стэнфордского университета В конце 1960-х. Предыдущие системы требовали, чтобы пользователи делали паузу после каждого слова. Система Редди выдавала голосовые команды для игры в шахматы.

Примерно в это же время советские исследователи изобрели алгоритм динамического преобразования времени (DTW) и использовали его для создания распознавателя, способного работать со словамирем из 200 слов.. DTW обрабатывает речь, разделяя ее на короткие кадры, например 10 мс сегментов и обработка каждого кадра как одного блока. Хотя DTW будет заменен более поздними алгоритмами, этот метод продолжился. Достижение независимости спикеров в то время оставалось нерешенным.

1970–1990

  • 1971 - DARPA в течение пяти лет финансировало исследование понимания речи, исследование распознавания речи с минимальным объемом словарного запаса в 1000 слов. Они думали, что понимание речи будет ключом к прогрессу в распознавании речи, но позже это оказалось неверным. BBN, IBM, Carnegie Mellon и Стэнфордский исследовательский институт все участвовали в программе. Это ожившее исследование, посвященное исследованию распознавания речи, письмо Джона Пирса.
  • 1972 - Группа IEEE по акустике, речи и обработке сигналов провела конференцию в Ньютоне, штат Массачусетс.
  • 1976 Первый ICASSP проходил в Филадельфии, который с тех пор стал основным местом публикации исследований по распознаванию речи.

В конце 1960-х Леонард Баум разработал математику Цепи Маркова в Институте оборонного анализа. Десять лет спустя в CMU студенты Раджа Редди Джеймс Бейкер и Джанет М. Бейкер начали использовать скрытую марковскую модель (HMM) для распознавания речи. Джеймс Бейкер узнал о HMM на летней работе в системе анализа обороны во время учебы в бакалавриате. Использование HMM для исследователей объединить источники ресурсов, такие как акустика, язык и синтаксис, в единую вероятностную модель.

  • К середине 1980-х команда IBM Фреда Елинека создала пишущую машинку с голосовым управлением под названием Tangora, которая могла обрабатывать словарь из 20000 слов. Статистический подход Елинека уделяет меньше внимания подражанию способу. человеческий мозг обрабатывает и понимает речь, используя методы статистического моделирования, таких как HMM. (Группа Елинека независимо открыла применение HMM к речи.) Это вызвало споры среди лингвистов, поскольку HMM слишком упрощены, чтобы учесть общие черты человеческих языков. HMM оказался очень полезным методом моделирования речи и изменил динамическое искажение времени, чтобы стать доминирующим алгоритмом распознавания речи в 1980-х.
  • 1982 - Dragon Systems, основанная Джеймсом и Джанет М.. Бейкер, был одним из немногих конкурентов IBM.

Практическое распознавание речи

В 80-е годы также была представлена ​​языковая модель n-грамма.

  • 1987 - модель отката позволяла языкам моделям использовать н-граммы разной длины, а CSELT использовал HMM для распознавания языков (как программно, так и аппаратно) специализированные процессоры, например RIPAC ).

Большая часть прогресса в этой области занимается с быстро растущими возможностями компьютеров. По окончании программы DARPA в 1976 году лучшим компьютером, доступным исследователям, был PDP -10 с оперативной памятью 4 МБ. Для декодирования всего 30 секунд речи может потребоваться до 100 минут.

Два практических продукта:

  • 1987 - распознаватель от Kurzweil Applied Intelligence
  • 1990 - Dragon Dictate, потребительский продукт, выпущенный в 1990 году. ATT развернула в 1992 году службу обработки вызовов с распознаванием речи для маршрутизации телефонных звонков без участия человека-оператора. Технология была заложена Лоуренс Рабинер и другие сотрудники Bell Labs.

К этому моменту словарный запас типичной коммерческой системы распознавания речи был большим. г, чем средний человеческий словарный запас. Бывший ученик Раджа Редди, Сюэдун Хуанг, разработал систему Sphinx-II в CMU. Система Sphinx-II была первой, которая провела распознавание непрерывной речи независимо от говорящего, с большим словарным запасом, и показала лучшие результаты в оценке DARPA 1992 года. Работа с непрерывной речью с большим словарным запасом стала вехой в истории распознавания речи. В 1993 году Хуанг основал группу распознавания речи в Microsoft. Студент Раджа Редди Кай-Фу Ли присоединился к Apple, где в 1992 году он помог разработал прототип речевого интерфейса для Apple. компьютер, известный как Каспер.

Lernout Hauspie, бельгийская компания по распознаванию речи, приобрела несколько других компаний, включая Kurzweil Applied Intelligence в 1997 году и Dragon Systems в 2000 году. Речевые технологии LH использовались в Windows XP операционная система. LH была лидером отрасли, пока бухгалтерский скандал не положил конец компании в 2001 году. Речевые технологии от LH были куплены ScanSoft, которая в 2005 году стала Nuance. Apple изначально лицензировала программное обеспечение от Nuance для обеспечения возможности распознавания речи своему цифровому помощнику Siri.

2000-е годы

В 2000-х DARPA спонсировало две программы распознавания речи: Effective Доступное многоразовое преобразование речи в текст (EARS) в 2002 году и Глобальная эксплуатация автономных языков (GALE). В программе EARS участвовали четыре команды: IBM, команда, управляемая BBN с LIMSI и Univ. из Питтсбурга, Кембриджского университета, и команда, состоящая из ICSI, SRI и Вашингтонского университета. EARS профинансировал сбор корпуса телефонных разговоров Коммутатор, обеспечивающий 260 часов записанных разговоров от более чем 500 говорящих. Программа GALE была посвящена новостным выступлениям на арабском и китайском. Google впервые попытался распознать речь в 2007 году после того, как нанял нескольких исследователей из Nuance. Первым продуктом была GOOG-411, телефонная справочная служба. Записи с GOOG-411 дали ценные данные, которые помогли Google улучшить свои системы распознавания. Голосовой поиск Google теперь поддерживается более чем на 30 языках.

В США Агентство национальной безопасности использовало тип распознавания речи для обнаружения ключевых слов по крайней мере с 2006 года. Эта технология позволяет аналитикам выполнять поиск через большие объемы записанных разговоров и изолировать упоминания ключевых слов. Записи можно индексировать, а аналитики могут выполнять запросы к базе данных, чтобы найти интересующие разговоры. Некоторые правительственные исследовательские программы были посвящены интеллектуальным приложениям распознавания речи, например Программа EARS DARPA и программа IARPA Babel.

В начале 2000-х годов в распознавании речи все преобладали традиционные подходы, такие как скрытые модели Маркова в сочетании с прямой связью искусственные нейронные сети. Сегодня, однако, многие аспекты распознавания речи были взяты на себя методом глубокого обучения под названием Долгосрочная краткосрочная память (LSTM), рекуррентной нейронной сетью опубликовано Зеппом Хохрайтером и Юргеном Шмидхубером в 1997 году. LSTM RNN избегают проблемы исчезающего градиента и могут изучать задачи «очень глубокого обучения», требующие воспоминаний о событиях, которые происходят тысячи дискретных временных шагов назад, что важно для речи. Примерно в 2007 году LSTM, обученный Connectionist Temporal Classification (CTC), начал превосходить традиционное распознавание речи в некоторых приложениях. Сообщается, что в 2015 году производительность распознавания речи Google резко выросла на 49% благодаря обученному CTC LSTM, который теперь доступен через Google Voice всем пользователям смартфонов.

Использование глубокой прямой связи (непериодические) сети для акустического моделирования были введены в конце 2009 года Джеффри Хинтоном и его студентами из Университета Торонто, а также Ли Денг и коллегами из Microsoft Research, используется в совместная работа Microsoft и Университета Торонто, которая может быть расширена за счет включения IBM и Google (отсюда подзаголовок «Общие взгляды четырех исследовательских групп» в их обзорной статье 2012 года). Один из руководителей исследования Microsoft назвал это нововведение «самым значительным изменением точности с 1979 года». В отличие от неуклонных улучшений последних десятилетий, применение глубокого обучения снизило количество ошибок по словам на 30%. Это нововведение было быстро распространено по всему миру. Исследователи начали использовать методы глубокого обучения и для языкового моделирования.

В долгой истории распознавания речи как поверхностная форма, так и глубокая форма (например, повторяющиеся сети) искусственных нейронных сетей изучались в течение многих лет в течение 1980-х, 1990-х и несколько лет до 2000-х. Но эти методы так и смогли победить неоднородную внутреннюю ручную модель смеси Гаусса / Скрытая марковская модель (GMM-HMM), основанная на генеративных моделях речи, обучаемым дискриминационным образом. Ряд ключевых трудностей был методологически проанализирован в 1990-х годах, включая уменьшение градиента и слабую временную корреляции в нейронных прогностических моделях. Все эти трудности были в дополнение к отсутствию больших обучающих данных и большой вычислительной мощности в те первые дни. Большинство исследователей распознавания речи, которые понимают такие препятствия, могут отошли от нейронных сетей, начали применять подходы генеративного моделирования до недавнего возрождения глубокого обучения, начавшегося примерно в 2009–2010 годах, которое преодолело все эти трудности. Hinton et al. и Deng et al. Они рассмотрели случаи возрождения приложений глубоких нейронных сетей с прямым связью для распознавания речи, а затем их сотрудничество с коллегами из четырех групп (Университет Торонто, Microsoft, Google и IBM).

2010-е

К началу 2010-х распознавание речи, также называемое распознавание голоса, было четко дифференцировано от распознавания sp eaker, и независимость говорящего считалась крупным прорывом. До тех пор системам требовался период «обучения». В рекламе куклы 1987 года был слоган: «Наконец-то кукла, которая тебя понимает». - несмотря на то, что это описывалось как «какие дети могут научиться реагировать на свой голос».

В 2017 году исследователи Microsoft достигли исторического рубежа человеческого паритета - расшифровки разговорной телефонной речи с помощью широко протестированной задачи Switchboard. Для оптимизации точности распознавания речи использовалось несколько моделей глубокого обучения. Сообщается, что частота ошибок в словах при распознавании речи составляет всего 4 профессиональных человека-расшифровщика, работающих над одним и тем же тестом, который работает командой разработчиков речи IBM Watson вместе с одной и той же гарантией.

Модели, методы и алгоритмы

И акустическое моделирование, и языковое моделирование являются важными частями современных статистических алгоритмов распознавания речи. Скрытые марковские модели (HMM) широко используются во многих системах. Языковое моделирование также используется во многих приложениях обработки естественного языка, таких как классификация документов или статистический машинный перевод.

Скрытые марковские модели

В основе современных систем распознавания речи общего назначения о скрытых марковских моделях. Это статистические модели, которые содержат последовательность символов или величин. HMM используются в распознавании речи, потому что речевой сигнал можно рассматривать как кусочно-стационарный сигнал или кратковременный стационарный сигнал. В коротком временном масштабе (например, 10 миллисекунд) речь может быть аппроксимирована как стационарный процесс. Речь можно рассматривать как модель Маркова для многих стохастических целей.

Еще одна причина популярности HMM заключается в том, что их можно обучать автоматически, они просты и доступны с вычислительной точки зрения. При распознавании речи скрытая марковская модель будет выводить последовательность n-мерных векторов с действительными значениями (где n - небольшое целое число, например 10), выводя один из них каждые 10 миллисекунд. Векторы будут состоять из кепстральных коэффициентов, которые получаются с помощью преобразования Фурье короткого временного окна речи и декорреляции спектра с использованием косинусного преобразования, затем берём первые (наиболее значимые) коэффициенты. Скрытая марковская модель будет иметь тенденцию иметь в каждом состоянии статистическое распределение, которое представляет собой смесь диагональных ковариационных гауссианов, что дает вероятность для каждого наблюдаемого вектора. Каждое слово или (для более общих систем распознавания речи) каждая фонема будет иметь различное выходное распределение; Скрытая марковская модель для последовательности слов или фонем создается путем объединения отдельных обученных скрытых марковских моделей для отдельных слов и фонем.

Выше описаны основные элементы наиболее распространенного подхода к распознаванию речи, основанного на HMM. Современные системы распознавания речи используют различные комбинации ряда стандартных методов для улучшения результатов по сравнению с базовым подходом, описанным выше. Типичная система с большим словарным запасом потребует фонем (поэтому фонемы с разным левым и правым контекстом имеют разные реализации, как состояния HMM); его можно использовать для нормализации для разных динамиков и условий записи; для дальнейшей нормализации говорящего можно использовать нормализацию длины голосового тракта (VTLN) для нормализации между мужчинами и женщинами и (MLLR) для более общей адаптации говорящего. Функции будут иметь так называемые и для захвата динамики речи и, кроме того, могут использовать (HLDA); или может пропустить дельта- и дельта-коэффициенты и использовать проекцию на основе LDA, за которой, возможно, следует гетероскедастический линейный дискриминантный анализ или преобразование (также известное как, или MLLT). Многие системы используюттак называемые методы дискриминантного обучения, которые обходятся без чисто статистического подхода к оценке параметров HMM и вместо этого оптимизируют некоторые связанные с классификацией меры обучающих данных. Примерами максимальная максимальная взаимная информация (MMI), минимальная ошибка классификации (MCE) и минимальная ошибка телефона (MPE).

Декодирование речи (термин, обозначающий то, что, когда системе предъявляется новое высказывание и должно вычислять наиболее вероятное исходное предложение), вероятно, будет использовать алгоритм Витерби, чтобы найти лучший путь, и здесь есть выбор между динамическим созданием комбинации скрытой марковской модели, которая включает в себя как акустическую, так и информацию языковых моделей, и ее предварительное статическое комбинирование (подход преобразователь конечного состояния, или FST, подход).

Возможное улучшение улучшения качества в том, чтобы сохранить набор хороших кандидатов вместо того, чтобы просто оставить лучшего кандидата, и использовать функцию лучшей оценки этих хороших кандидатов, чтобы мы могли выбрать лучшее в соответствии с этой изысканной оценки. Набор кандидатов может храниться либо как список (подход), либо как подмножество моделей (решетка ). Пересчет обычно осуществляется путем попытки минимизировать риск Байеса (или его приближение): вместо того, чтобы исходное предложение брать с максимальной вероятностью, мы пытаемся взять предложение, которое минимизирует ожидание данной функции потерь. что касается всех транскрипций (т. е. мы берем предложение, которое минимизирует среднее расстояние до других предложений, взвешенное по их предполагаемой вероятности). Функция обычно - это расстояние Левенштейна, хотя для конкретных задач это могут быть разные расстояния; набор транскрипций, конечно, сокращен, чтобы сохранить управляемость. Были разработаны эффективные алгоритмы для повторной оценки решеток, представленных как взвешенные преобразователи конечного состояния с измерениями размеров редактирования, представленные как преобразователь конечного состояния, проверяющий верх предположения.

Распознавание речи на основе динамического искажения времени (DTW)

Динамическое искажение времени - это подход, который исторически использовался для распознавания речи, но теперь в степени вытеснен более успешными HMM- основанный подход.

Динамическое искажение времени - это алгоритм измерения сходства между двумя последовательностями, которые могут различаться по времени или скорости. Например, сходство в моделях ходьбы может быть обнаружено, даже если на одном видео человек шел медленно, а на другом - быстрее, или даже если в ходе одного наблюдения были ускорения и замедления. DTW был применен к видео, аудио и графике - действительно, любые данные, которые можно преобразовать в линейное представление, можно проанализировать с помощью DTW.

Хорошо приложение является автоматическое распознавание речи, чтобы справиться с разными скоростями речи. В общем, это метод, который позволяет компьютеру находить оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями. То есть нелинейно «искажаются», чтобы друг соответствовал друг. Этот метод выравнивания последовательностей часто используется в контексте скрытых марковских моделей.

Нейронные сети

Нейронные сети возникли как привлекательный подход к акустическому моделированию в ASR в конце 1980-х. Используется во многих случаях нейх распознавание речи, таких как классификация фонем, классификация фонем с помощью многоцелевых эволюционных алгоритмов, распознавание отдельных слов, аудиовизуальное распознавание речи, аудиовизуальное распознавание говорящего и адаптация говорящего.

Нейронные сети делают меньше предположений о статистических свойствах явных признаков, чем HMM, и обладают рядом качеств, делающих их привлекательными моделями распознавания для распознавания речи. При использовании для оценки вероятностей сегмента сегмента нейронные сети позволяют естественным и эффективным различать обучение. Однако, несмотря на их эффективность при отдельных функциях классификации, такие как фонемы и изолированные слова, ранние нейронные сети редко успешными для задач непрерывного распознавания из-за их ограниченной способности моделировать временные зависимости.

Один из подходов к этому ограничению заключался в использовании нейронных сетей в качестве предварительной обработки, преобразования признаков или уменьшения размерности, шаг до распознавания на основе HMM. Однако совсем недавно LSTM и связанные с ним рекуррентные нейронные сети (RNN) и нейронные сети с временной задержкой (TDNN) применяли улучшенную производительность в этой области.

Глубокие нейронные сети с прямой связью и рекуррентные сети

Глубокие нейронные сети и шумоподавление Автоэнкодеры также находятся в стадии исследования. Нейронная сеть с глубокой прямой связью (DNN) - это искусственная нейронная сеть с использованием скрытых слоями между входным и выходным слоями. Подобно мелким нейронным сетям, DNN могут моделировать сложные нелинейные отношения. Архитектура DNN генерирует композиционные модели, где дополнительные слои позволяют объединить функции из нижних уровней, возможности огромную способность к обучению и, следовательно, потенциал моделирования сложных шаблонов речевых данных.

Успех DNN в распознавании речи с большим словарным запасом в 2010 году промышленными исследователями в сотрудничестве с академическими исследователями были приняты большие выходные слои DNN, основанные на контекстно-зависимых состояниях HMM, построенных с помощью решений деревьев. См. Исчерпывающие обзоры этой разработки и состояния дел по состоянию на октябрь 2014 г. в недавней книге Springer от Microsoft Research. См. Также соответствующую информацию об автоматическом распознавании речи и влиянии различных парадигм машинного обучения, в частности, глубокого обучения, в недавних обзорных статьях.

Один фундаментальный принцип глубокого обучения заключается в том, чтобы отказаться от ручной разработки функций и использовать необработанные функции. Этот принцип был успешно исследован в секторе глубинного автоэнкодера на «сырой» спектрограмме или линейных характеристиках банка фильтров, предоставив его преимущества над функциями Mel-Cepstral, которые содержат несколько этапов фиксированного преобразования из спектра. Совсем недавно было показано, что истинные «сырые» характеристики речи, формы волны, дают превосходные результаты крупномасштабного распознавания речи.

Сквозное автоматическое распознавание речи

С 2014 года существует Большой исследовательский интерес "сквозная" ASR. Традиционные фонетические подходы (т.е. все модели на основе HMM ) требовали отдельных компонентов и обучения произношению, акустике и языковой модели. Сквозные модели совместно изучают все компоненты распознавателя речи. Это ценно, как упрощает процесс обучения и развертывания. Например, модель языка n-грамм требуется для всех систем на основе HMM, а типичная языковая модель n-грамм часто занимает несколько гигабайт в памяти, что делает их непрактичным для развертывания на мобильных устройствах. Следовательно, современные коммерческие системы ASR от Google и Apple (по состоянию на 2017 год) развертываются в облаке и требуют сетевого подключения, а не локального устройства.

Первая попытка сквозного ASR была с системой на основе временной классификации Connectionist (CTC), представленных Alex Graves из Google DeepMind и Навдип Джайтли из Университета Торонто в 2014 году. Модель состояла из рекуррентных нейронных сетей и слоя CTC. Вместе модель RNN-CTC изучает произношение и акустическую модель вместе, однако она не может изучать язык из-за предположений условной независимости, подобных HMM. Следовательно, модели CTC могут напрямую научиться сопоставлять акустику речи с английскими иероглифами, но допускают много распространенных орфографических ошибок и полагаться на отдельную языковую модель для очистки транскриптов. Позже Baidu расширил работу с расширенными данными и некоторый коммерческий успех на китайском мандаринском и английском языках. В 2016 году Оксфордский университет представил LipNet, первую модель чтения по губам на уровне предложений, использующую пространственно-временные свертки в сочетании с архитектурной RNN-CTC, превосходящую уровень качества в ограниченном наборе грамматических данных.. Google DeepMind представил крупномасштабную энергетуру CNN-RNN-CTC в 2018 году, достигнув в 6 раз большей производительности, чем у экспертов.

Альтернативный подход к моделям на основе CTC основан на внимании. модели. Модели ASR, основанные на внимании, были одновременно представлены Chan et al. из Университета Карнеги-Меллона и Google Brain и Bahdanau et al. из Университета Монреаля в 2016 году. Модель под названием «Слушайте, посещайте и произносите» (LAS) «слушает» акустический сигнал, обращает «внимание» на различные части сигнала и «заклинания» "выводить стенограмму по одному символу за раз. В отличие от моделей на основе CTC, модели на основе предположений об условной независимости и могут напрямую изучать все компоненты распознавателя речи, включая произношение, акустику и языковую модель, что во время развертывания нет необходимости носить с собой языковую модель, что делает ее очень практичной для приложения с ограниченной К концу 2016 года модели, основанные на внимании, добились значительного успеха, в том числе превзошли модели CTC (с моделью внешнего языка или без нее). Предыдущие модели LAS были предложены различные расширения. Latent Sequence Decompositions (LSD) был предложен Университетом Карнеги-Меллона, Массачусетским технологическим институтом и Google Brain, чтобы напрячь мую выдавать единицы вложенных слов, которые более естественны, чем английские символы; Оксфордский университет и Google DeepMind расширили LAS до «Смотри, слушай, посещай и произноси» (WLAS), чтобы выполнять чтение по губам, превзойдя показатели человеческого уровня.

Приложения

Автомобильные системы

Обычно ручное управление, например, с помощью пальца на рулевом колесе, включает систему распознавания речи, и водителю об этом сигнализирует звуковая подсказка. После звуковой подсказки система имеет «окно прослушивания», в течение которого она может принимать речевой ввод для распознавания.

Простые голосовые команды включения для инициирования телефонных звонков, выбора радиостанций или воспроизведения музыки с совместимого смартфон, MP3-плеер или флешку с музыкой. Возможности распознавания голоса различаются в зависимости от марки автомобиля. Некоторые из последних моделей моделей используют распознавание речи на фиксированном языке набора команд, что позволяет водителю использовать полные предложения и распространенные фразы. Таким образом, в таких системах пользователю не нужно запоминать набор фиксированных командных слов.

Здравоохранение

Медицинская документация

В здоровье В секторе заботы распознавание речи может быть реализовано на начальном или конечном этапе процесса медицинской документации. Внешнее распознавание речи - это когда провайдер диктует движку распознавания речи, распознанные слова по мере их произнесения, а диктатор отвечает за редактирование и подписание документа. Внутреннее или отложенное распознавание речи - это когда поставщик диктует в системе цифровой диктовки, голос маршрутизируется через машину распознавания речи, а распознанный черновик документа направляется вместе с исходным голосовым файлом в редактор., где редактируется проект и дорабатывается отчет. Распознавание распространенной речи в настоящее время широко используется в отрасли.

Одна из основных проблем, связанных с использованием распознавания речи в здравоохранении, заключается в том, что Закон о восстановлении и реинвестиции в Америке от 2009 года (ARRA ) предусматривает существенные финансовые преимущества. для врачей, которые используют EMR в соответствии со стандартами «рационального использования». Эти стандарты требуют, чтобы EMR (в настоящее время более известный как Электронная медицинская карта или EHR) хранит значительный объем данных. Использование распознавания речи более естественно подходит для создания повествовательного текста как части интерпретации радиологии / патологии, заметок о ходе выполнения или выписки: эргономические преимущества использования распознавания речи для ввода структурированных дискретных данных (например, числовых значений или кодов) из списка или контролируемого словаря ) относительно минимальны для зрячих людей, умеющих пользоваться клавиатурой и мышью.

Более важная проблема заключается в том, что большинство электронных записных книжек не были специально адаптированы для использования преимуществ возможностей распознавания голоса. Значительная часть взаимодействия врача с EHR включает в себя навигацию по пользовательскому интерфейсу с использованием меню и щелчков по вкладкам / кнопкам и в значительной степени зависит от клавиатуры и мыши: голосовая навигация обеспечивает лишь скромные эргономические преимущества. В отличие от этого, многие специализированные системы для радиологии или патологии реализуют голосовые «макросы», где использование определенных фраз - например, «нормальный отчет» автоматически заполняет большое количество значений по умолчанию и / или генерирует шаблон, который будет варьируются в зависимости от типа исследования - например, рентгенография грудной клетки или серия контрастных исследований желудочно-кишечного тракта для рентгенологической системы.

Терапевтическое использование

Продолжительное использование программного обеспечения для распознавания речи в сочетании с текстовыми процессорами показало преимущества для восстановления кратковременной памяти в АВМ мозга пациенты, которым была проведена резекция . Необходимо провести дальнейшие исследования, чтобы определить когнитивные преимущества для людей, чьи АВМ лечили с помощью радиологических методов.

Военные

Высокоэффективные истребители

В последнее десятилетие были предприняты значительные усилия по тестированию и распознавания оценки речи на истребителях. Особо следует отметить американскую программу распознавания речи для самолетов Advanced Fighter Technology Integration (AFTI) / F-16 (F-16 VISTA ), программа во Франции для самолетов Mirage и другие программы в отношении различных платформ самолетов. Эти программы распознаватели речи успешно использовались в истребительной авиации с такими приложениями, как: установка радиочастот, управление системой автопилота, установка координат управления и параметров сброса оружия, а управление отображением точки полета.

Работая со шведскими пилотами, лета в кабине JAS-39 Грипен, Энглунд (2004) обнаружил, что распознавание плохих изображений с помощью перегрузок. В отчете также сделан вывод, что адаптация значительно улучшила результаты во всех случаях и что было показано, значительно улучшились показатели распознавания. Вопреки, что можно было ожидать, никаких эффектов от ломанного английского языка носителей не обнаружено. Было очевидно, что спонтанная речь вызывает проблемы у распознающего, как и ожидать ожидать. Таким образом, можно ожидать, что ограниченный словарный запас и прежде всего, правильный синтаксис улучшат точность распознавания.

Eurofighter Typhoon, в настоящее время находится на вооружении Великобритании RAF использует зависимую от говорящего системы, требуемую от каждого пилота создания шаблона. Система не используется для каких-либо критических для безопасности или оружия задач, таких как сброса оружия или опускания шасси, но используется для широкого круга других функций кабины. Голосовые команды подтверждаются визуальной и / или звуковой обратной связью. Система работает как основная конструктивная особенность в сокращении рабочей нагрузки пилота , и даже позволяет пилоту назначать цели своему самолету двумя простыми голосовыми командами или любым из своих ведомых всего пятью командами.

Системы, не зависящие от динамики, также создаются и проходят испытания для F35 Lightning II (JSF) и Alenia Aermacchi M-346 Master учебно-тренировочного истребителя.. Эти системы точность слов более 98%.

Вертолеты

Проблемы достижения высокой точности распознавания в условиях стресса и шума на уровне уровня среды вертолета, а также среда реактивного истребителя. Проблема акустического шума на самом деле более серьезна в среде вертолета не только из-за высокого уровня шума, но и из-за того, что пилот вертолета, как правило, не носит лицевую маску , которая снижает акустический шум в воздух. микрофон. За последнее время были проведены программы тестирования систем распознавания речи на вертолетах, в частности, США. Армия Исследования и разработки в области авионики (AVRADA) и Королевское аэрокосмическое предприятие (RAE ) в Великобритании. Работа во Франции включала распознавание речи на вертолете Puma. Также было много полезной работы в Канаде. Результаты были обнадеживающими, и голосовые приложения включали: управление радиостанциями связи, настройку навигационных систем и управление автоматизированной системой переключения целей.

Как и в случае с истреблением, наиважнейшей проблемой для голоса в вертолетах влияние на пилотов. Обнадеживающие результаты представлены для тестов AVRADA, хотя они продемонстрировали демонстрацию в тестовой среде. Многое еще предстоит сделать как в области распознавания речи, так и в области речевой технологии в целом, чтобы постоянно повышать производительность в рабочих настройках.

Обучение авиадиспетчеров

Обучение авиадиспетчеров (УВД) представляет собой отличное приложение для систем распознавания речи. Многие системы обучения УВД в настоящее время требуют, чтобы человек действовал как «псевдопилот», участвуя в голосовом диалоге с диспетчером-стажером, который имитирует диалог, который диспетчер должен вести с пилотами в реальной ситуации УВД. Методы распознавания речи и синтез позволяет избавить человека от необходимости действовать как псевдопилот, сокращая тем самым обучение и вспомогательный. Теоретически задачи воздушного контроллера также характеризуются высокоструктурированной речью в качестве основного выхода контроллера, поэтому должно быть возможно снижение задачи распознавания речи. На практике это бывает редко. В документе 7110.65 FAA подробные предложения фраз, которые должны объявить авиадиспетчерами. Хотя в этом тексте менее 150 примеров таких фраз, количество фраз, поддерживаемых одной из систем распознавания речи от поставщиков симуляторов, больших 500 000.

ВВС США, Военно-морские силы США, Армия США, ВМС США и FAA, а также международных организаций по обучению УВД, таких как Королевские ВВС Австралии и управления гражданской авиации в Италии, в настоящее время используют Симуляторы УВД с распознаванием речи от ряда различных производителей.

Телефония и другие домены

ASR теперь обычное дело в области телефонии и все становится более распространенным в области компьютерных игр и моделирования. В телефонных системах ASR обычно используется в контакт-центрах путем интеграции с системами IVR. Несмотря на высокий уровень интеграции с текстовыми процессорами в обычных компьютерах, в области производства документов ASR не увидела ожидаемого увеличения использования документов.

Повышение скорости мобильных процессоров сделало распознавание речи практичным в смартфонах. Речь в основном используется как часть пользовательского интерфейса для создания предопределенных или настраиваемых речевых команд.

Использование в образовании и повседневной жизни

Для изучения языка распознавание речи может быть полезно для изучения второго языка. Он может научить правильному произношению, а также помочь развить беглость разговорных навыков человеку.

Слепые учащиеся (см. Слепота и образование ) или с очень слабым зрением могут получить пользу от использования технологии передачи слов и последующего их воспроизведения компьютером, а также использование компьютера для управления голосом, вместо того, чтобы смотреть на экран и клавиатуру.

Учащиеся с физическими заданиями или страдающими от Повторяющаяся травма от растяжения / другие травмы верхних конечностей можно избавить от необходимости беспокоиться о почерке, наборе текста или работе с писцом при выполнении школьных заданий с помощью программного преобразования речи в текст. Они также могут использовать технологию распознавания речи, чтобы пользоваться поиском в Интернете или пользоваться компьютером дома без необходимости физически управлять мышью и клавиатурой.

Распознавание речи учащимся с ограниченными возможностями научиться лучше писать. Говоря вслух, они могут повысить плавность своего письма и избавиться от опасений относительно орфографии, пунктуации и других механизмов письма. Также см. Нарушение обучаемости.

Использование программного обеспечения для распознавания голоса в сочетании с цифровым аудиомагнитофоном и персональным компьютером с программной памятью для обработки текстов доказало свою эффективность для восстановления поврежденного объема кратковременной одним движением. и люди с трепанацией черепа.

Люди с ограниченными возможностями

Люди с ограниченными возможностями пользуются программами распознавания речи. Для глухих или слабослышащих людей программное обеспечение распознавания речи используется для автоматического создания скрытых субтитров для разговоров, как дискуссии в конференц-залах, лекции в классе и религиозные службы.

Распознавание речи также очень полезно для людей, которым трудно пользоваться руками, начиная с легких повторяющихся стрессовых травм и заканчивая ограниченными возможностями, которые не позволяют использовать обычные компьютерные устройства ввода. Фактически, люди, которые использовали клавиатуру и разработали RSI, стали неотложным ранним рынком для распознавания речи. Распознавание речи используется в глухой телефонии, например, голосовая почта в тексте, услуги ретрансляции и телефон с субтитрами. Использование ограниченных возможностей обучения, используемых средствами программного обеспечения. но технология не является защитой от ошибок. Кроме того, сама проблема разговора с текстом может быть сложной для умственно отсталых людей из-за того, что редко кто-либо использует идею, чтобы научить человека с инвалидностью.

Этот тип технологий может помочь людям с дислексией, но с другими ограниченными возможностями все еще под вопросом. Эффективность продукта - это проблема, которая мешает ему быть эффективным. Хотя ребенок может произнести слово в зависимости от того, насколько он произносит его, технология может произнести, что он произносит другое слово, и неправильное. Дают им больше работы для исправления, заставляя их тратить больше времени на исправление неправильного слова.

Другие приложения

Performance

Производительность систем распознавания речи обычно оценивается с точки зрения точности и скорости. Точность обычно оценивается с погрешностью слов скорость (WER), тогда как скорость измеряется с помощью. Другие показатели включают (SWER) и (CSR).

Распознавание речи машиной - очень сложная проблема. акцента, произношения, артикуляции, грубости, гнавости, высоты тонаус, громкости и скорости. Речь искажается фоновым шумом и эхом, электрическими характеристиками. Точность распознавания речи может изменяться в зависимости от следующего:

  • Объем словарного запаса и путаница
  • Зависимость от говорящего или независимость
  • Изолированная, прерывистая или непрерывная речь
  • Задача и язык ограничения
  • Чтение и спонтанная речь
  • Неблагоприятные условия

Точность

Как упоминалось ранее в этой статье, точность распознавания речи может изменяться в зависимости от следующих факторов:

  • Количество ошибок увеличивается по мере увеличения словарногоа:
например. 10 цифр от «нуля» до «девять» могут быть распознаны практически идеально, но словарный запас размером 200, 5000 или 100000 может иметь коэффициент ошибок 3%, 7% или 45% соответственно.
  • Словарь трудно распознать, если он содержит непонятные слова:
например 26 букв английского алфавита трудно различить, потому что они сбивают с толку слова (наиболее известный E-набор: «B, C, D, E, G, P, Т, В, Z »); 8% ошибок считается хорошим для этого словаря.
  • Зависимость от говорящего или независимого:
Зависимая от говорящего система для использования одним говорящим.
Система независимого говорящего - это предназначенная для использования любым говорящим (сложнее).
  • Изолированная, прерывистая или непрерывная речь
Изолированной речи отдельные используемые слова, поэтому становится легче распознать речь.

В прерывистой речи полные предложения разделены по тишине используются, поэтому становится легче распознать речь, а также изолированную речь.. При непрерывной речи используются звуковые произносимые предложения, поэтому становится труднее распознать речь, отличную как от изолированной, так и от прерывистой речи.

  • Задача и языковые ограничения
    • например Запрашивающее приложение может отклонить гипотезу «Яблоко красное».
    • например Ограничения могут быть семантическими; отклонение фразы «Яблоко в ярости».
    • например Синтаксический; отклонение фразы «Красное яблоко».

Ограничения часто представленной грамматикой.

  • Чтение против спонтанной речи - когда человек читает это обычно в заранее подготовленном контексте, но когда человек использует спонтанную речь, его трудно распознать из-за недостатков (таких как «ээ» и «гм», фальстарт, неполные предложения, заикание,
  • Неблагоприятные условия - окружающий шум (например, шум в машине или на заводе). Акустические искажения (например, эхо, акустика)

Распознавание речи - это многоуровневая задача речи

  • Акустические сигналы структурированы в виде иерархии модулей, например Фонемы, слова, фразы и предложения;
  • Каждый уровень предоставляет дополнительные ограничения;

например Известные произношения слов или образованные допустимые Используя слов, которые могут компенсировать ошибки или неопределенности на более низком уровне;

  • Эта иерархия ограничений используется. процесс представляет собой разбитый на нескольких этапах процесс представлений на высоком уровне. С вычислительной точки зрения, это проблема, в которой звуковой образец должен быть распознан или классифицирован в категории, которая представляет значение для человека. Каждый акустический сигнал может быть разбит на более мелкие более базовые субсигналы. Мы создаем более простые звуковые уровни, которые состоят из более простых звуков на более низком уровне, а при переходе на более низкие уровни мы создаем более простые звуковые уровни. более короткие и простые звуки. На самом низком уровне, где звуки наиболее фундаментальные, машина проверяет простые и более вероятные правила того, что должно представлять собой звук. Как только эти звуки объединены в более сложный звук на верхнем уровне, новый набор более детерминированных правил должен предсказать, какой новый сложный звук должен представлять. Самый верхний уровень детерминированного правила должен понимать значение сложных выражений. Чтобы расширить наши знания о распознавании речи, нам необходимо принять во внимание нейронные сети. Существует четыре шага нейронных сетей:
  • Оцифровка речи, которую мы хотим распознать

Для телефонной речи частота дискретизации составляет 8000 выборок в секунду;

  • Вычислить характеристики спектральной области речи (с преобразованием Фурье);

вычислить каждые 10 мс, с одним участком 10 мс, называемым кадром;

Анализ четырехэтапных подходов нейронных сетей можно пояснить с помощью дополнительной информации. Звук создается вибрацией воздуха (или другой среды), которую мы воспринимаем ушами, а машины - приемниками. Базовый звук волну, который имеет два описания: амплитуда (насколько она сильна) и частота (частота колебаний в секунду). Точность можно вычислить с помощью коэффициента ошибок по словам (WER). Коэффициент ошибок в словах можно вычислить путем выравнивания распознанного слова и слова благодаря имеющейся ссылке, с динамического выравнивания строк. Проблема может при вычислении времени появления ошибок по словам из-за разницы между длинами последовательностей распознанного слова и слова. Пусть

S - количество замен, D - удалений, I - количество вставок, N - количество ссылок на слова.

Формула для вычисления ошибок коэффициента по словам (WER):

WER = (S + D + I) ÷ N

При вычислении скорости распознавания слов (WRR) используется коэффициент ошибок в словах (WER) по формуле

WRR = 1- WER = (NSDI) ÷ N = (HI) ÷ N

Здесь H - количество правильно распознанных слов. Н = N- (S + D).

Проблемы безопасности

Распознавание речи стать может средством средстваения, кражи или случайного действия. Например, слова активации, такие как «Alexa», произносимые во время аудио- или видеотрансляции, могут привести к тому, что устройство в домах и офисах начнут неправильно прослушивать ввод или, возможно, предпримут нежелательные действия. Услуги с голосовым управлением также доступны для посетителей здания или даже для тех, кто находится за пределами здания, если их слышно внутри. Злоумышленники могут получить доступ к личной информации, такой как календарь, содержимое адресной книги, личные сообщения и документы. Они также могут выдавать себя за пользователя для отправки или совершения покупок в Интернете.

Были применены две атаки с использованием искусственных звуков. Один передает ультразвук и пытается посылать команды незаметно для окружающих. Другой добавляет небольшие неслышимые искажения в другую речь или музыку, которые специально созданы для того, чтобы сбить с толку конкретную систему распознавания речи и заставить ее распознавать музыку как речь или сделать то, что звучит как одна команда для человека, звучит как другая команда для системы.

Дополнительная информация

Конференции и журналы

Конференции по распознаванию популярной речи, проводимые один или два года, включают SpeechTEK и SpeechTEK Europe, ICASSP, / Eurospeech и IEEE ASRU. Конференции в области обработки естественного языка, такие как ACL, NAACL, EMNLP и HLT, начинают включать статьи по обработке речи. Важные журналы включают IEEE Транзакции по обработке речи и звука (позже переименованы в IEEE Транзакции по обработке аудио, речи и языка, а с сентября 2014 года переименованы в IEEE / ACM Transactions по обработке звука, речи и языка - после слияния с публикацией ACM), компьютерной речи и языка и речевой коммуникации.

Книги

Такие книги, как «Основы распознавания речи» Лоуренса Рабинера, могут быть полезны для получения базовых знаний, но могут быть не полностью актуальными (1993). Другим хорошим источником могут быть «Статистические методы распознавания речи» Фредерика Елинека и «Обработка разговорной речи (2001)» Сюэдун Хуан и т. Д., «Компьютерная речь» Манфред Р. Шредер, второе издание, опубликованное в 2004 г., и «Обработка речи: динамический и оптимизационно-ориентированный подход», опубликованный в 2003 г. Ли Денг и Дуг О'Шогнесси. В обновленном учебнике «Обработка речи и языка» (2008 г.), написанном Джурафски и Мартином, представлены основы и современное состояние ASR. Распознавание говорящего также использует те же функции, большую часть той же внешней обработки и методы классификации, что и при распознавании речи. Исчерпывающий учебник «Основы распознавания говорящих» является подробным источником последних сведений по теории и практике. Хорошее представление о методах, используемых в лучших современных системах, можно получить, обратив внимание на оценки, спонсируемые государством, например, организованные DARPA (крупнейший проект, связанный с распознаванием речи, продолжающийся с 2007 года, - проект GALE, который включает в себя как распознавание речи, так и компоненты перевода).

Хорошее и доступное введение в технологию распознавания речи и ее историю дает книга для широкой аудитории «Голос в машине. Создание компьютеров, которые понимают речь» Роберто Пьераччини (2012).

Самая последняя книга по распознаванию речи - «Автоматическое распознавание речи: метод глубокого обучения» (издатель: Springer), написанная исследователями Microsoft Д. Ю и Л. Дэн и опубликованная в конце 2014 г. техническая информация о том, как методы глубокого обучения выводятся и реализуются в современных системах распознавания речи на основе DNN и связанных с ними методов глубокого обучения. В связанной книге, опубликованной ранее в 2014 г., «Глубокое обучение: методы и приложения» Л. Дэна и Д. Ю, представлен менее технический, но более ориентированный на методологию обзор распознавания речи на основе DNN в 2009–2014 гг. общий контекст приложений глубокого обучения, включая не только распознавание речи, но также распознавание изображений, обработку естественного языка, поиск информации, мультимодальную обработку и многозадачное обучение.

Программное обеспечение

С точки зрения свободно доступных ресурсов, Инструментарий Университета Карнеги-Меллона Sphinx - это место, где можно начать как узнавать о распознавании речи, так и начать экспериментировать. Другой ресурс (бесплатный, но защищенный авторскими правами) - это книга HTK (и сопутствующий инструментарий HTK). Для более свежих и современных методов можно использовать набор инструментов Kaldi. В 2017 году Mozilla запустила проект с открытым исходным кодом под названием Common Voice, чтобы собрать большую базу данных голосов, которая поможет создать проект распознавания свободной речи (доступен бесплатно на GitHub ) с использованием Платформа с открытым исходным кодом Google TensorFlow.

Коммерческие облачные API-интерфейсы распознавания речи широко доступны в AWS, Azure, IBM и GCP.

Демонстрация интерактивного распознавателя речи доступна на веб-странице Cobalt.

Дополнительные ресурсы по программному обеспечению см. Список программ для распознавания речи.

См. Также
Списки
Ссылки
Дополнительная литература
  • Пьерачини, Роберто (2012). Голос в машине. Создание компьютеров, понимающих речь. MIT Press. ISBN 978-0262016858.
  • Вельфель, Матиас; Макдонаф, Джон (26 мая 2009 г.). Распознавание речи на расстоянии. Вайли. ISBN 978-0470517048.
  • Карат, Клэр-Мари; Верго, Джон; Нахаму, Дэвид (2007). «Технологии разговорного интерфейса». В Sears, Эндрю ; Джек, Джули А. (ред.). Справочник по взаимодействию человека и компьютера: основы, развивающиеся технологии и новые приложения (человеческий фактор и эргономика). Лоуренс Эрлбаум Ассошиэйтс Инк. ISBN 978-0-8058-5870-9.
  • Коул, Рональд; Мариани, Джозеф ; Uszkoreit, Hans; Вариле, Джованни Баттиста; Заенен, Энни; Замполли; Зу, Виктор, ред. (1997). Обзор современного состояния технологий человеческого языка. Кембриджские исследования в области обработки естественного языка. XII – XIII. Издательство Кембриджского университета. ISBN 978-0-521-59277-2.
  • Junqua, J.-C.; Хатон, Ж.-П. (1995). Устойчивость в автоматическом распознавании речи: основы и приложения. Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
  • Пирани, Джанкарло, изд. (2013). Продвинутые алгоритмы и архитектуры для понимания речи. Springer Science Business Media. ISBN 978-3-642-84341-9.
Внешние ссылки
Последняя правка сделана 2021-06-09 02:15:58
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте