VoiceXML

редактировать

VoiceXML (VXML ) - это стандарт цифровых документов для определения интерактивных медиа и голосовые диалоги между людьми и компьютерами. Он используется для разработки приложений аудио и голосового ответа, таких как банковские системы и автоматизированные порталы обслуживания клиентов. Приложения VoiceXML разрабатываются и развертываются аналогично тому, как веб-браузер интерпретирует и визуально отображает язык гипертекстовой разметки (HTML), который он получает от веб-сервера . Документы VoiceXML интерпретируются голосовым браузером, и в обычных архитектурах развертывания пользователи взаимодействуют с голосовыми браузерами через телефонную сеть общего пользования (PSTN).

Формат документа VoiceXML основан на Extensible Markup Language (XML). Это стандарт, разработанный Консорциумом Всемирной паутины (W3C).

Содержание

1 Использование
2 История
3 Будущие версии стандарта
4 Связанные стандарты
- 4.1 SRGS и SISR
- 4.2 SSML
- 4.3 PLS
- 4.4 CCXML
- 4.5 MSML, MSCML, MediaCTRL
5 См. Также
6 Ссылки
7 Внешние ссылки

Использование

Приложения VoiceXML обычно используются во многих отраслях и сегментах торговли. Эти приложения включают в себя запрос заказа, отслеживание посылок, маршруты проезда, уведомление о чрезвычайных ситуациях, пробуждение, отслеживание рейсов, голосовой доступ к электронной почте, управление взаимоотношениями с клиентами, пополнение рецептов, журналы аудио новостей, голосовой набор, информацию о недвижимости и национальный Справочная служба приложений.

VoiceXML имеет теги, которые инструктируют голосовой браузер обеспечивать синтез речи, автоматическое распознавание речи, управление диалогами, и воспроизведение звука. Ниже приводится пример документа VoiceXML:

Привет, мир!

При интерпретации интерпретатором VoiceXML будет выведено «Hello world» с синтезированной речью.

Обычно HTTP используется в качестве транспортного протокола для выборки страниц VoiceXML. Некоторые приложения могут использовать статические страницы VoiceXML, в то время как другие полагаются на создание динамических страниц VoiceXML с использованием сервера приложений, например Tomcat, Weblogic, IIS, или WebSphere.

Исторически поставщики платформы VoiceXML реализовывали стандарт по-разному и добавляли проприетарные функции. Но стандарт VoiceXML 2.0, принятый в качестве Рекомендации W3C 16 марта 2004 г., прояснил большинство различий. VoiceXML Forum, отраслевая группа, продвигающая использование стандарта, предоставляет процесс тестирования на соответствие, который удостоверяет, что реализации поставщиков соответствуют требованиям.

История

Корпорация ATT, IBM, Lucent и Motorola сформировали Форум VoiceXML в марте 1999 г. разработать стандартный язык разметки для определения голосовых диалогов. К сентябрю 1999 года Форум выпустил VoiceXML 0.9 для комментариев участников, а в марте 2000 года они опубликовали VoiceXML 1.0. Вскоре после этого Форум передал контроль над стандартом W3C. W3C выпустил несколько промежуточных версий VoiceXML 2.0, которые достигли финальной стадии «Рекомендации» в марте 2004 года.

VoiceXML 2.1 добавил относительно небольшой набор дополнительных функций к VoiceXML 2.0, основанный на отзывах реализаций 2.0. стандарт. Он обратно совместим с VoiceXML 2.0 и получил статус рекомендации W3C в июне 2007 года.

Будущие версии стандарта

VoiceXML 3.0 будут следующим основным выпуском VoiceXML с новыми основными функциями. Он включает новый язык описания диаграмм состояний XML, называемый SCXML.

Родственные стандарты

Структура речевого интерфейса W3C также определяет эти другие стандарты, тесно связанные с VoiceXML.

SRGS и SISR

Спецификация грамматики распознавания речи (SRGS) используется, чтобы сообщить распознавателю речи, какие шаблоны предложений он должен ожидать услышать: эти шаблоны называются грамматиками. Как только распознаватель речи определит наиболее вероятное предложение, которое он услышал, ему необходимо извлечь семантическое значение из этого предложения и вернуть его интерпретатору VoiceXML. Эта семантическая интерпретация определяется стандартом Семантическая интерпретация для распознавания речи (SISR). SISR используется внутри SRGS для определения семантических результатов, связанных с грамматиками, то есть набора назначений ECMAScript, которые создают семантическую структуру, возвращаемую распознавателем речи.

SSML

Язык разметки синтеза речи (SSML) используется для украшения текстовых подсказок информацией о том, как лучше всего их отображать в синтетической речи, например, какой синтезатор речи использовать голос или когда говорить громче или тише.

PLS

Спецификация лексики произношения (PLS) используется для определения того, как произносятся слова. Сгенерированная информация о произношении предназначена для использования как распознавателями речи, так и синтезаторами речи в приложениях для просмотра голоса.

CCXML

Расширяемый язык разметки для управления вызовами (CCXML) является дополнительным стандартом W3C. Интерпретатор CCXML используется на некоторых платформах VoiceXML для обработки первоначальной установки вызова между вызывающим абонентом и голосовым браузером и для предоставления услуг телефонии, таких как перевод вызова и отключение от голосового браузера. CCXML также можно использовать в контекстах, отличных от VoiceXML.

MSML, MSCML, MediaCTRL

В приложениях медиасервера часто бывает необходимо, чтобы несколько ветвей вызова взаимодействовали друг с другом, например, в многосторонней конференции. В VoiceXML для этого приложения были выявлены некоторые недостатки, поэтому компании разработали специальные языки сценариев для работы с этой средой. Язык разметки медиа-сервера (MSML) был решением Convedia, а язык разметки управления медиа-сервером (MSCML) был решением Snowshore. Snowshore теперь принадлежит Dialogic, а Convedia теперь принадлежит Radisys. Эти языки также содержат «перехватчики», чтобы внешние сценарии (например, VoiceXML) могли выполняться на участках вызова, где требуется функциональность IVR.

Была рабочая группа IETF под названием mediactrl («управление мультимедиа»), которая работала над преемником этих систем сценариев, которые, как ожидается, будут развиваться до открытого и широко принятого стандарта. Рабочая группа mediactrl завершила свою работу в 2013 году.

См. Также

ECMAScript - язык сценариев, используемый в VoiceXML
- библиотека интерпретатора VoiceXML с открытым исходным кодом
SCXML - State Chart XML

Ссылки

Внешние ссылки

Слушайте эту статью

Этот аудиофайл был создан на основе редакции этой статьи от 29.10.2011 и не отражают последующие правки. (

)

Рабочая группа голосового браузера W3C, официальные стандарты VoiceXML
Форум VoiceXML, владелец товарного знака VoiceXML
VoiceXML на Керли
Руководства по VoiceXML