Обнаружение голосовой активности

редактировать

Обнаружение голосовой активности (VAD ), также известное как обнаружение речевой активности или обнаружение речи - это обнаружение присутствия или отсутствия человеческой речи, используемое в обработке речи. Основное применение VAD - кодирование речи и распознавание речи. Он может облегчить обработку речи, а также может использоваться для деактивации некоторых процессов во время неречевой части аудиосеанса: он может избежать ненужного кодирования / передачи пакетов тишины в Протокол передачи голоса по Интернету (VoIP), экономия на вычислениях и пропускной способности сети.

VAD - важная технология, позволяющая использовать различные речевые приложения. Поэтому были разработаны различные алгоритмы VAD, которые обеспечивают различные функции и компромиссы между задержкой, чувствительностью, точностью и вычислительными затратами. Некоторые алгоритмы VAD также обеспечивают дополнительный анализ, например, является ли речь звонкой, невокализованной или устойчивой. Обнаружение голосовой активности обычно не зависит от языка.

Впервые он был исследован для использования в системах речевой интерполяции с назначением времени (TASI).

Содержание

  • 1 Обзор алгоритма
  • 2 Приложения
    • 2.1 Использование в телемаркетинг
  • 3 Оценка эффективности
  • 4 Реализации
  • 5 См. также
  • 6 Ссылки

Обзор алгоритма

Типичный дизайн алгоритма VAD выглядит следующим образом:

  1. сначала будет этап снижения шума, например с помощью спектрального вычитания.
  2. Затем некоторые характеристики или количества вычисляются из части входного сигнала.
  3. A правило классификации применяется для классификации раздела как речевого или неречевого - часто это правило классификации находит, когда значение превышает пороговое значение.

В этой последовательности может быть некоторая обратная связь, в которой решение VAD используется для улучшения оценки шума на этапе уменьшения шума или для адаптивного изменения порога (ов). Эти операции обратной связи улучшают характеристики VAD при нестационарном шуме (т. Е. Когда шум сильно меняется).

Репрезентативный набор недавно опубликованных методов VAD формулирует правило принятия решения на покадровой основе с использованием мгновенных измерений расстояние расхождения между речью и шумом. Различные меры, которые используются в методах VAD, включают спектральный наклон, коэффициенты корреляции, логарифмическое отношение правдоподобия, кепстральные, взвешенные кепстральные и модифицированные меры расстояния.

Независимо от выбора алгоритма VAD, Необходимо найти компромисс между определением голоса как шум или шумом, обнаруженным как голос (между ложноположительным и ложноотрицательным ). VAD, работающий в мобильном телефоне, должен уметь обнаруживать речь в присутствии самых разных типов акустического фонового шума. В этих сложных условиях обнаружения часто предпочтительно, чтобы VAD был отказоустойчивым, указывая на обнаружение речи, когда решение вызывает сомнения, чтобы снизить вероятность потери речевых сегментов. Самая большая трудность при обнаружении речи в этой среде - это встречающиеся очень низкие отношения сигнал / шум (SNR). Когда части речевого высказывания скрыты под шумом, может оказаться невозможным различить речь и шум с использованием простых методов определения уровня.

Приложения

Для широкого диапазона приложения s Например, как цифровое мобильное радио (DSVD) или речевое хранилище, желательно обеспечить прерывистую передачу параметров речевого кодирования. Преимущества могут включать в себя более низкое среднее энергопотребление в мобильных телефонах, более высокую среднюю скорость передачи данных для одновременных услуг, таких как передача данных, или более высокую емкость на микросхемах памяти. Однако улучшение зависит в основном от процента пауз во время речи и надежности VAD, используемого для обнаружения этих интервалов. С одной стороны, выгоден низкий процент речевой активности. С другой стороны, ограничение, то есть потеря миллисекунд активной речи, должно быть минимизировано для сохранения качества. Это критическая проблема для алгоритма VAD в условиях сильного шума.

Использование в телемаркетинге

Одно из спорных приложений VAD связано с предиктивными дозвонщиками, используемыми фирмами телемаркетинга. Чтобы максимизировать продуктивность агентов, фирмы телемаркетинга устанавливают устройства с прогнозированием для звонков на большее количество номеров, чем у них есть агенты, зная, что большинство звонков заканчиваются либо на «Звонок - Нет ответа», либо на автоответчики. Когда человек отвечает, он обычно говорит коротко («Привет», «Добрый вечер» и т. Д.), А затем наступает короткий период молчания. Сообщения на автоответчике обычно составляют 3–15 секунд непрерывной речи. Правильно настроив параметры VAD, дозвонщики могут определить, ответил ли на вызов человек или машина, и, если это человек, передать вызов доступному агенту. Если он обнаруживает сообщение на автоответчике, дозвонщик вешает трубку. Часто, даже если система правильно определяет человека, отвечающего на вызов, агент может быть недоступен, что приводит к «тихий вызов ». Фильтрация вызовов с использованием многосекундного сообщения типа «скажите, кто вы, и я могу поднять трубку» помешает таким автоматическим вызовам.

Оценка эффективности

Чтобы оценить VAD, его вывод с использованием тестовых записей сравнивается с результатами «идеального» VAD, созданного путем ручного аннотирования присутствия или отсутствия голоса в записях. Производительность VAD обычно оценивается на основе следующих четырех параметров:

  • FEC (Front End Clipping): ограничение вводится при переходе от шума к речевой активности;
  • MSC (Mid Speech Clipping): обрезание из-за речи, ошибочно классифицированной как шум;
  • OVER: шум интерпретируется как речь из-за того, что флаг VAD остается активным при переходе от речевой активности к шуму;
  • NDS (шум, обнаруженный как речь): шум интерпретируется как речь в периоде молчания.

Хотя описанный выше метод дает полезную объективную информацию о характеристиках VAD, это лишь приблизительная мера субъективного эффекта. Например, эффекты ограничения речевого сигнала иногда могут быть скрыты наличием фонового шума, в зависимости от модели, выбранной для синтеза комфортного шума, поэтому некоторые ограничения, измеренные с помощью объективных тестов, в действительности не слышны. Поэтому важно проводить субъективные тесты VAD, основная цель которых - убедиться, что воспринимаемое отсечение является приемлемым. Этот вид теста требует, чтобы определенное количество слушателей оценивало записи, содержащие результаты обработки тестируемых VAD, давая оценки нескольким речевым последовательностям по следующим признакам:

  • Качество ;
  • Сложность понимания;
  • Слышимость отсечения.

Эти отметки затем используются для вычисления средних результатов для каждой из перечисленных выше характеристик, обеспечивая тем самым общую оценку поведения тестируемого VAD.

В заключение, в то время как объективные методы очень полезны на начальном этапе для оценки качества VAD, субъективные методы более значимы. Поскольку они требуют участия нескольких человек в течение нескольких дней, что увеличивает стоимость, они обычно используются только тогда, когда предложение будет стандартизировано.

Реализации

  • Один из ранних стандартов VAD - это стандарт, разработанный British Telecom для использования в общеевропейской цифровой сотовой мобильной телефонной службе в 1991 году. Он использует обратную фильтрацию обучен на неречевых сегментах для фильтрации фонового шума, чтобы затем можно было более надежно использовать простой порог мощности, чтобы определить, присутствует ли голос.
  • G.729 Стандарт вычисляет следующие характеристики для своего VAD: линейные спектральные частоты, энергия всей полосы, энергия нижней полосы (<1 kHz), and частота пересечения нуля. Он применяет простую классификацию с использованием фиксированной границы решения в пространстве, определяемом этими функциями, а затем применяет сглаживание и адаптивную коррекцию для улучшения оценки.
  • Стандарт GSM включает две опции VAD, разработанные ETSI. Опция 1 вычисляет SNR в девяти диапазонах и применяет порог к этим значениям. Вариант 2 вычисляет различные параметры: мощность канала, показатели голоса и мощность шума. оценивает голосовые метрики с использованием порогового значения, которое изменяется в зависимости от предполагаемого SNR.
  • Библиотека сжатия аудио Speex использует процедуру под названием Improved Minima Controlled Recursive Averaging, которая использует сглаженное представление спектральной мощности а затем смотрит на минимумы сглаженной периодограммы . Начиная с версии 1.2 он был заменен тем, что автор назвал кладжем.

См. Также

Ссылки

Последняя правка сделана 2021-06-18 04:52:12
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте