Распознавание говорящего

редактировать

Распознавание говорящего - это идентификация человека по характеристикам голоса. Он используется для ответа на вопрос «Кто говорит?» Термин распознавание голоса может относиться к распознаванию говорящего или распознаванию речи. Проверка говорящего (также называемая аутентификация говорящего ) в отличие от идентификации, и Распознавание говорящего отличается от диаризации говорящего (распознавание, когда говорит тот же говорящий).

Распознавание говорящего может упростить задачу перевода речи в системах, обученных определенным голосам, или его можно использовать для аутентификации или проверки личности говорящего в рамках процесса безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было установлено, различаются у разных людей. Эти акустические модели отражают как анатомию , так и усвоенные модели поведения.

Содержание

1 Проверка и идентификация
2 Обучение
3 Варианты распознавания говорящего
4 Технология
5 Правовые последствия
6 Приложения
7 См. Также
8 Примечания
9 Ссылки
10 Внешние ссылки
- 10.1 Программное обеспечение

Проверка и идентификация

Существует два основных применения технологий и методологий распознавания говорящих. Если говорящий утверждает, что имеет определенную личность, и голос используется для проверки этого утверждения, это называется проверкой или аутентификацией. С другой стороны, идентификация - это задача определения личности неизвестного говорящего. В некотором смысле проверка говорящего - это совпадение 1: 1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего - это совпадение 1: N, где голос сравнивается с несколькими шаблонами.

С точки зрения безопасности идентификация отличается от проверки. Проверка динамика обычно используется в качестве «привратника» для обеспечения доступа к безопасной системе. Эти системы работают с ведома пользователей и обычно требуют их сотрудничества. Системы идентификации говорящего также могут быть реализованы скрытно без ведома пользователя, чтобы идентифицировать говорящих в дискуссии, предупреждать автоматизированные системы об изменениях говорящих, проверять, зарегистрирован ли пользователь в системе и т. Д.

В криминалистических приложениях это Обычно сначала выполняется процесс идентификации говорящего для создания списка «наилучших совпадений», а затем выполняется ряд процессов проверки для определения окончательного совпадения.

Обучение

Одно из самых ранних этапов обучения Технологии для коммерциализации были реализованы в кукле Джули от Worlds of Wonder 1987 года. В тот момент независимость говорящего была намеченным прорывом, и системам требовался период обучения. В рекламе куклы 1987 года был слоган: «Наконец-то кукла, которая вас понимает». - несмотря на то, что это было описано как продукт, «который дети могут научить реагировать на свой голос». Термин «распознавание голоса» даже десять лет спустя относился к независимости говорящего.

Варианты распознавания говорящего

Каждая система распознавания говорящего имеет две фазы: регистрацию и проверку. Во время регистрации голос говорящего записывается, и обычно ряд функций извлекается для формирования голосового отпечатка, шаблона или модели. На этапе проверки образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. Для систем идентификации высказывание сравнивается с несколькими голосовыми отпечатками, чтобы определить наилучшее совпадение (а), в то время как системы проверки сравнивают высказывание с одиночным голосовым отпечатком. Из-за вовлеченного процесса проверка выполняется быстрее, чем идентификация.

Системы распознавания говорящего делятся на две категории: текстозависимые и независимые от текста.

Текстозависимые:

Если текст должен быть одинаковым для регистрации и проверки, это называется текстозависимым распознаванием.. В системе, зависящей от текста, подсказки могут быть либо общими для всех говорящих (например, общая фраза-пароль), либо уникальными. Кроме того, для создания сценария многофакторной аутентификации можно использовать общие секреты (например, пароли и ПИН-коды) или информацию, основанную на знаниях.

Независимость от текста:

Системы, не зависящие от текста, чаще всего используются для идентификации говорящего, поскольку они требуют очень небольшого взаимодействия со стороны говорящего. В этом случае текст при зачислении и тестировании отличается. Фактически, регистрация может происходить без ведома пользователя, как в случае со многими криминалистическими приложениями. Поскольку независимые от текста технологии не сравнивают то, что было сказано при регистрации и проверке, приложения проверки, как правило, также используют распознавание речи, чтобы определить, что пользователь говорит в точке аутентификации.

В текстовых независимых системах используются методы акустики и анализа речи.

Технология

Распознавание говорящего - это проблема распознавания образов. Различные технологии, используемые для обработки и хранения голосовых отпечатков, включают оценку частоты, скрытые модели Маркова, модели смеси Гаусса, алгоритмы сопоставления с образцом, нейронные сети, матричное представление, векторное квантование и деревья решений. Для сравнения высказываний с голосовыми отпечатками традиционно используются более простые методы, такие как косинусное сходство, из-за их простоты и производительности. Некоторые системы также используют методы «анти-говорящего», такие как когортные модели и модели мира. Спектральные характеристики преимущественно используются для представления характеристик говорящего. Кодирование с линейным предсказанием (LPC) - это метод кодирования речи, используемый для распознавания говорящего и проверки речи.

Уровни окружающего шума может препятствовать сбору как исходных, так и последующих голосовых образцов. Алгоритмы шумоподавления могут использоваться для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений поведенческих атрибутов голоса и регистрации с использованием одного телефона и проверки на другом телефоне. Ожидается рост интеграции с продуктами двухфакторной аутентификации. Изменения голоса из-за старения могут со временем повлиять на производительность системы. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы фиксировать такие долгосрочные изменения голоса, хотя ведутся споры относительно общего воздействия на безопасность, оказываемого автоматической адаптацией.

Юридические последствия

В связи с введением законодательства, такого как Общий регламент защиты данных в Европейском Союзе и Калифорнийская конфиденциальная информация Закон В США было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях.

Заявки

Первый международный патент был подан в 1983 году на основе исследований в области телекоммуникаций в CSELT (Италия) Микеле Кавацца и Альберто Чьярамелла в качестве основы как для будущих телекоммуникационных услуг для конечных потребителей, так и для улучшения методов шумоподавления в сети.

В период с 1996 по 1998 год технология распознавания говорящих использовалась на пограничном переходе Скоби-Коронак, чтобы зарегистрированные местные жители, которым нечего заявлять, пересекали границу Канады и США когда станции досмотра были закрыты на ночь. Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies of Warren, штат Мичиган.

В мае 2013 года было объявлено, что Barclays Wealth будет использовать пассивные распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд обычного разговора. Используемая система была разработана компанией по распознаванию голоса Nuance (которая в 2011 году приобрела компанию Loquendo, дочернюю компанию CSELT для речевых технологий), компания, стоящая за Технология Apple Siri. Подтвержденный голосовой отпечаток должен был использоваться для идентификации вызывающих абонентов в системе, и в будущем система будет развернута по всей компании.

Подразделение частного банковского обслуживания Barclays было первой фирмой, предоставляющей финансовые услуги, которая развернула голосовую биометрию в качестве основного средства аутентификации клиентов в своих центрах обработки вызовов. 93% пользователей-клиентов оценили систему на «9 из 10» за скорость, простоту использования и безопасность.

Распознавание говорящего также может использоваться в уголовных расследованиях, таких как расследование казней 2014 г. среди прочих, Джеймс Фоули и Стивен Сотлофф.

В феврале 2016 года британский крупный банк HSBC и его розничный интернет-банк First Direct объявила, что предложит 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн-счетам и телефонным счетам с помощью отпечатка пальца или голоса.

См. также

Списки

Примечания

Ссылки

Homayoon Beigi (2011), «Основы распознавания говорящего ", Springer-Verlag, Berlin, 2011, ISBN 978-0-387-77591-3.
« Биометрия из фильмов » –Национальный институт стандартов и технологий echnology
Элизабет Зеттерхольм (2003), Имитация голоса. Фонетическое исследование перцептивных иллюзий и акустического успеха, докторская диссертация, Лундский университет.
М.Д. Сахидулла (2015), Повышение эффективности распознавания говорящего с использованием уровня блоков, относительной и временной информации об энергиях поддиапазонов, Докторская диссертация, Индийский технологический институт Харагпур.

Внешние ссылки

Обход голосовой аутентификации В подкасте PLA Radio недавно был показан простой способ обмануть элементарные системы голосовой аутентификации.
Распознавание говорящего - Scholarpedia
Преимущества распознавания голоса и проблемы при управлении доступом

Программное обеспечение

bob.bio.spear
ALIZE