Голосовой пользовательский интерфейс

редактировать

A Голосовой пользовательский интерфейс (VUI ) делает возможным голосовое взаимодействие человека с компьютером, используя распознавание речи для понимания голосовых команд и ответов на вопросы и обычно преобразования текста в речь для воспроизведения ответа. устройство голосовых команд (VCD ) - это устройство, управляемое с помощью голосового пользовательского интерфейса.

Голосовые пользовательские интерфейсы были добавлены в автомобили, системы домашней автоматизации, компьютер операционные системы, бытовая техника например стиральные машины и микроволновые печи, и телевизионные пульты дистанционного управления. Они являются основным способом взаимодействия с виртуальными помощниками на смартфонах и интеллектуальных динамиках. Старые автоматические операторы (которые направляют телефонные звонки на правильный добавочный номер) и системы интерактивного голосового ответа (которые проводят более сложные транзакции по телефону) могут реагировать на нажатие кнопок клавиатуры с помощью DTMF, но те, у которых есть полноценный голосовой пользовательский интерфейс, позволяют вызывающим абонентам озвучивать запросы и ответы без необходимости нажимать какие-либо кнопки.

Новые VCD не зависят от говорящего, поэтому они могут реагировать на несколько голосов, независимо от акцента или диалектных влияний. Они также способны отвечать сразу на несколько команд, разделяя голосовые сообщения и обеспечивая соответствующую обратную связь, точно имитируя естественный разговор.

Содержание

1 Обзор
2 История
3 Программные продукты для голосовых команд
- 3.1 Microsoft Windows
  - 3.1.1 Windows Vista
  - 3.1.2 Windows 7
  - 3.1.3 Mac OS X
- 3.2 Коммерческие продукты
4 Мобильные устройства голосовых команд
- 4.1 Android OS
- 4.2 Microsoft Windows
- 4.3 iOS
- 4.4 Amazon Alexa
5 Распознавание речи в автомобилях
6 Невербальный ввод
7 Проблемы проектирования
- 7.1 Обнаружение
- 7.2 Транскрипция
- 7.3 Общие сведения о
8 Использование в будущем
9 Последствия для конфиденциальности
10 См. Также
11 Ссылки
12 Внешние ссылки

Обзор

A VUI - это интерфейс для любого речевого приложения. Совсем недавно управление машиной с помощью простого разговора было научной фантастикой. До недавнего времени этой областью считался искусственный интеллект. Однако достижения в таких технологиях, как преобразование текста в речь, преобразование речи в текст, обработка естественного языка и облачные сервисы, в целом, способствовали массовому внедрению этих типов интерфейсов. VUI стали более обычным явлением, и люди пользуются преимуществами, которые эти свободные руки, незаметные интерфейсы предоставляют во многих ситуациях.

VUI должны надежно реагировать на ввод, иначе они будут отклонены и часто высмеиваются их пользователями. Создание хорошего VUI требует междисциплинарных талантов информатики, лингвистики и человеческого фактора психологии - все это навыки, которые дороги и труднодоступны. Даже с использованием передовых инструментов разработки создание эффективного VUI требует глубокого понимания как задач, которые необходимо выполнить, так и целевой аудитории, которая будет использовать окончательную систему. Чем ближе VUI соответствует ментальной модели задачи пользователя, тем проще будет его использовать с минимальным обучением или без него, что приведет как к более высокой эффективности, так и к большему удовлетворению запросов пользователей.

VUI, разработанный для широкой публики, должен подчеркивать простоту использования и предоставлять много помощи и рекомендаций для тех, кто звонит впервые. В отличие от этого, VUI, разработанный для небольшой группы опытных пользователей (включая выездных сервисных работников), должен больше ориентироваться на производительность, а не на помощь и руководство. Такие приложения должны упростить потоки вызовов, свести к минимуму запросы, исключить ненужные итерации и позволить разработать «смешанные инициативы диалоги », которые позволяют вызывающим абонентам вводить несколько частей информации в одном высказывании в любом порядке или комбинации. Короче говоря, речевые приложения необходимо тщательно разрабатывать для конкретного автоматизированного бизнес-процесса.

Не все бизнес-процессы одинаково хорошо подходят для автоматизации речи. В целом, чем сложнее запросы и транзакции, тем сложнее их автоматизировать и тем выше вероятность того, что они потерпят неудачу у широкой публики. В некоторых сценариях автоматизация просто не применима, поэтому помощь живого агента - единственный вариант. Например, горячую линию для юридических консультаций было бы очень сложно автоматизировать. С другой стороны, речь идеально подходит для обработки быстрых и рутинных операций, таких как изменение статуса рабочего задания, завершение записи о времени или расходах или перевод средств между счетами.

История

Ранние приложения для VUI включали голосовой набор телефонов, либо напрямую, либо через (обычно Bluetooth ) гарнитуру или автомобильную аудиосистему система.

В 2007 году в деловой статье CNN сообщалось, что голосовые команды обходятся отрасли более чем в миллиард долларов и что такие компании, как Google и Apple, пытались создать функции распознавания речи. С момента публикации статьи прошли годы, и с тех пор мир стал свидетелем множества устройств голосового управления. Кроме того, Google создал движок распознавания речи под названием Pico TTS, а Apple выпустила Siri. Устройства голосового управления становятся все более доступными, и постоянно создаются инновационные способы использования человеческого голоса. Например, Business Week предполагает, что в будущем пульте дистанционного управления будет человеческий голос. В настоящее время Xbox Live поддерживает такие функции, а Джобс намекнул на такую функцию в новом Apple TV.

программных продуктах голосового управления

Оба Apple Mac и Windows PC предоставляют встроенные функции распознавания речи для своих последних операционных систем.

Microsoft Windows

Две операционные системы Microsoft, Windows 7 и Windows Vista, предоставляют возможности распознавания речи. Microsoft интегрировала голосовые команды в свои операционные системы, чтобы предоставить механизм для людей, которые хотят ограничить использование мыши и клавиатуры, но при этом хотят сохранить или повысить общую производительность.

Windows Vista

С помощью голосового управления Windows Vista пользователь может диктовать документы и электронные письма в основных приложениях, запускать приложения и переключаться между ними, управлять операционной системой, форматировать документы, сохранять документы, редактировать файлы, эффективно исправлять ошибки и заполнять формы на Интернет. Программное обеспечение для распознавания речи обучается автоматически каждый раз, когда пользователь его использует, и распознавание речи доступно на английском (США), английском (Великобритания), немецком (Германия), французском (Франция), испанском (Испания), японском, китайском (традиционном) языках. и китайский (упрощенный). Кроме того, программное обеспечение поставляется с интерактивным учебным пособием, которое можно использовать для обучения как пользователя, так и механизма распознавания речи.

Windows 7

В дополнение ко всем функциям, предоставляемым в Windows Vista, Windows 7 предоставляет мастер для настройки микрофона и руководство по использованию этой функции.

Mac OS X

Все компьютеры Mac OS X поставляются предварительно установлен с программой распознавания речи. Программное обеспечение не зависит от пользователя и позволяет пользователю «перемещаться по меню и вводить сочетания клавиш; озвучивать названия флажков, названия переключателей, элементы списка и названия кнопок; а также открывать, закрывать, контролировать и переключаться между приложениями. " Однако веб-сайт Apple рекомендует пользователю купить коммерческий продукт под названием Dictate.

Коммерческие продукты

, если пользователя не устраивает встроенное программное обеспечение для распознавания речи или у пользователя нет встроенной речи. программного обеспечения распознавания для своей ОС, то пользователь может поэкспериментировать с коммерческим продуктом, таким как Braina Pro или DragonNaturallySpeaking для ПК с Windows, и Dictate, название того же программного обеспечения для Mac OS.

Мобильные устройства с голосовыми командами

Любое мобильное устройство под управлением ОС Android, Microsoft Windows Phone, iOS 9 или новее или Blackberry OS предоставляет возможности голосового управления. Помимо встроенного программного обеспечения для распознавания речи для каждой операционной системы мобильного телефона, пользователь может загружать сторонние приложения голосовых команд из магазина приложений каждой операционной системы: Apple App store, Google Play, Windows Phone Marketplace (первоначально Windows Marketplace для мобильных ) или BlackBerry App World.

Android OS

Google разработала операционную систему с открытым исходным кодом под названием Android, который позволяет пользователю выполнять голосовые команды, например: отправлять текстовые сообщения, слушать музыку, прокладывать маршруты, звонить в компании, звонить контактам, отправлять электронную почту, просматривать карту, переходить на веб-сайты, писать заметки. и выполните поиск в Google. Программное обеспечение для распознавания речи доступно для всех устройств, начиная с версии Android 2.2 "Froyo", но в настройках должен быть установлен английский язык. Google позволяет пользователю изменять язык, и при первом использовании функции распознавания речи пользователю предлагается указать, хочет ли он, чтобы его голосовые данные были привязаны к его учетной записи Google. Если пользователь решит воспользоваться этой службой, это позволит Google обучить программное обеспечение голосу пользователя.

Google представила Google Assistant с Android 7.0 "Nougat". Она намного более продвинутая, чем старая версия.

Amazon.com имеет Echo, который использует пользовательскую версию Android от Amazon для обеспечения голосового интерфейса.

Microsoft Windows

Windows Phone - операционная система мобильного устройства Microsoft. В Windows Phone 7.5 речевое приложение не зависит от пользователя и может использоваться для: вызова кого-либо из вашего списка контактов, вызова любого номера телефона, повторного набора последнего номера, отправки текстового сообщения, вызова вашей голосовой почты, открытия приложения, чтения встреч, запросить статус телефона и поиск в Интернете. Кроме того, во время телефонного звонка также можно использовать речь, и во время телефонного звонка возможны следующие действия: нажмите номер, включите громкую связь или позвоните кому-нибудь, что переведет текущий вызов в режим удержания.

Windows 10 представляет Cortana, систему голосового управления, которая заменяет ранее использовавшееся голосовое управление на телефонах Windows.

iOS

Apple добавила голосовое управление в свое семейство устройств iOS в качестве новой функции iPhone OS 3. iPhone 4S, iPad 3, iPad Mini 1G, iPad Air, iPad Pro 1G, iPod Touch 5G и новее, все они поставляются с более продвинутым голосовым помощником под названием Siri. Голосовое управление по-прежнему можно включить в меню «Настройки» на новых устройствах. Siri - это независимая от пользователя встроенная функция распознавания речи, которая позволяет пользователю отдавать голосовые команды. С помощью Siri пользователь может выполнять такие команды, как отправка текстового сообщения, проверка погоды, установка напоминаний, поиск информации, планирование встреч, отправка электронной почты, поиск контакта, установка будильника, получение маршрутов, отслеживание ваших акций, установить таймер и попросить примеры запросов голосовых команд. Кроме того, Siri поддерживает Bluetooth и проводные наушники.

Amazon Alexa

В 2014 году Amazon представила устройство умного дома Alexa. Его основным назначением была просто умная колонка, позволяющая потребителю управлять устройством с помощью голоса. В конце концов, он превратился в новинку, которая могла управлять бытовой техникой с помощью голоса. Теперь с помощью Alexa можно управлять почти всей техникой, включая лампочки и температуру. Разрешив голосовое управление, Alexa может подключаться к технологии умного дома, позволяющей запирать дом, контролировать температуру и активировать различные устройства. Эта форма ИИ позволяет кому-то просто задать вопрос, и в ответ Alexa ищет, находит и произносит ответ вам.

Распознавание речи в автомобилях

Как в машине улучшаются технологии, в автомобили будет добавлено больше функций, и эти функции, скорее всего, будут отвлекать водителя. Голосовые команды для автомобилей, согласно CNET, должны позволять водителю отдавать команды и не отвлекаться. CNET заявила, что Nuance предполагала, что в будущем они создадут программное обеспечение, напоминающее Siri, но для автомобилей. В большинстве программ для распознавания речи на рынке в 2011 году было от 50 до 60 голосовых команд, а у Ford Sync их было 10 000. Однако CNET предположила, что даже 10 000 голосовых команд было недостаточно, учитывая сложность и разнообразие задач, которые пользователь может выполнять во время вождения. Голосовая команда для автомобилей отличается от голосовой команды для мобильных телефонов и компьютеров, потому что водитель может использовать эту функцию для поиска ближайших ресторанов, бензина, направления движения, дорожных условий и местоположения ближайшего отеля. В настоящее время технология позволяет водителю отдавать голосовые команды как на портативном GPS, таком как Garmin, так и на навигационной системе производителя автомобиля.

Список систем голосового управления, предоставленных Производители двигателей:

Ford Sync
Lexus Voice Command
Chrysler UConnect
Honda Accord
GM IntelliLink
BMW
Mercedes
Pioneer
Harman
Hyundai

Невербальный ввод

Хотя большинство голосовых пользовательских интерфейсов предназначены для поддержки взаимодействия посредством разговорного человеческого языка, недавно были проведены исследования в области проектирования интерфейсов, не требующих -речевые человеческие звуки в качестве входных данных. В этих системах пользователь управляет интерфейсом, издавая неречевые звуки, такие как гудение, свист или дуновение в микрофон.

Одним из таких примеров невербального голосового пользовательского интерфейса является Blendie, интерактивное искусство инсталляция создана Келли Добсон. Изделие представляло собой классический блендер 1950-х годов, который был модифицирован для работы с микрофонным входом. Чтобы управлять блендером, пользователь должен имитировать жужжащие механические звуки, которые обычно издает блендер: блендер будет медленно вращаться в ответ на низкое рычание пользователя и увеличиваться в скорости, когда пользователь издает более высокие звуки голоса.

Другой пример - VoiceDraw, исследовательская система, позволяющая рисовать в цифровом виде людям с ограниченными двигательными способностями. VoiceDraw позволяет пользователям «рисовать» штрихи на цифровом холсте, модулируя гласные звуки, которые сопоставляются с направлениями кисти. Модуляция других паралингвистических характеристик (например, громкости их голоса) позволяет пользователю управлять различными функциями рисунка, такими как толщина мазка кисти.

Другие подходы включают использование невербальных звуков для расширения сенсорных интерфейсов (например, на мобильном телефоне) для поддержки новых типов жестов, которые были бы невозможны при вводе одним пальцем.

Проблемы проектирования

Голосовые интерфейсы создают значительное количество проблем для удобства использования. В отличие от графических пользовательских интерфейсов (GUI), передовые методы проектирования голосового интерфейса все еще появляются.

Обнаруживаемость

При чисто звуковом взаимодействии голосовые пользовательские интерфейсы, как правило, страдают от низкой обнаруживаемости: пользователям сложно понять объем возможностей системы. Для того, чтобы система могла передать то, что возможно без визуального отображения, необходимо перечислить доступные варианты, что может стать утомительным или невыполнимым. Низкая обнаруживаемость часто приводит к тому, что пользователи сообщают о путанице в том, что им «разрешено» говорить, или о несоответствии ожиданий относительно широты понимания системы.

Транскрипция

Хотя технология распознавания речи значительно улучшилась за последние годы, голосовые пользовательские интерфейсы по-прежнему страдают от ошибок синтаксического анализа или транскрипции, из-за которых речь пользователя интерпретируется неправильно. Эти ошибки, как правило, особенно распространены, когда в речевом содержании используется технический словарь (например, медицинская терминология) или нетрадиционные варианты написания, такие как музыкальный исполнитель или названия песен.

Понимание

Эффективный дизайн системы для максимизации разговорное понимание остается открытой областью исследования. Голосовые пользовательские интерфейсы, которые интерпретируют состояние разговора и управляют им, сложно разработать из-за присущей ему сложности интеграции сложных обработки естественного языка таких задач, как разрешение кореферентности, распознавание именованных сущностей, получение информации и управление диалогами. Большинство голосовых помощников сегодня способны очень хорошо выполнять отдельные команды, но ограничены в их способности управлять диалогом за пределами узкой задачи или пары поворотов в разговоре.

Future использует

карманные устройства, такие как КПК или мобильные телефоны, в настоящее время полагаются на маленькие кнопки для ввода данных пользователем. Они либо встроены в устройство, либо являются частью интерфейса сенсорного экрана, такого как Apple iPod Touch и iPhone Siri Application. Длительное нажатие на кнопки на устройствах с такими маленькими кнопками может быть утомительным и неточным, поэтому простой в использовании, точный и надежный VUI потенциально может стать большим прорывом в простоте их использования. Тем не менее, такой VUI также принесет пользу пользователям портативных и настольных компьютеров, так как он решит многочисленные проблемы, связанные в настоящее время с использованием клавиатуры и мыши, включая травмы от повторяющихся нагрузок, такие как синдром запястного канала и низкая скорость набора текста со стороны неопытных пользователей клавиатуры. Более того, использование клавиатуры обычно предполагает сидение или стояние неподвижно перед подключенным дисплеем; напротив, VUI позволит пользователю быть гораздо более мобильным, поскольку голосовой ввод устраняет необходимость смотреть на клавиатуру.

Такие разработки могут буквально изменить облик современных машин и иметь далеко идущие последствия для того, как пользователи взаимодействуют с ними. Переносные устройства будут разработаны с большими экранами, удобными для просмотра, поскольку клавиатура не потребуется. Устройствам с сенсорным экраном больше не нужно разделять отображение между содержимым и экранной клавиатурой, что обеспечивает просмотр содержимого в полноэкранном режиме. Ноутбуки можно было бы существенно сократить вдвое с точки зрения размера, поскольку половина клавиатуры была бы удалена, а все внутренние компоненты были бы интегрированы за дисплеем, что фактически привело бы к простому планшетному компьютеру. Настольные компьютеры будут состоять из процессора и экрана, что позволит сэкономить место на рабочем столе, которое в противном случае занимала бы клавиатура, и исключить выдвижные подставки под клавиатуру, встроенные под поверхность стола. Также можно отказаться от телевизионных пультов дистанционного управления и клавиатур на десятках других устройств, от микроволновых печей до копировальных аппаратов.

Однако для того, чтобы такое развитие событий произошло, необходимо преодолеть множество проблем. Во-первых, VUI должен быть достаточно сложным, чтобы различать ввод, такой как команды, и фоновый диалог; в противном случае будет зарегистрирован ложный ввод, и подключенное устройство будет вести себя нестабильно. Стандартная подсказка, например знаменитая «Компьютер!» вызов персонажей научно-фантастических телешоу и фильмов, таких как Star Trek, мог активировать VUI и подготовить его к дальнейшему вводу от того же говорящего. Возможно, VUI также может включать в себя представление, подобное человеку: например, голос или даже экранный персонаж, который отвечает (например, «Да, Вамши?») И продолжает общаться с пользователем взад и вперед в чтобы уточнить полученные данные и обеспечить точность.

Во-вторых, VUI должен работать совместно с очень сложным программным обеспечением, чтобы точно обрабатывать и находить / извлекать информацию или выполнять действия в соответствии с предпочтениями конкретного пользователя. Например, если Саманта предпочитает информацию из определенной газеты, и если она предпочитает, чтобы информация была резюмирована в виде точек, она может сказать: «Компьютер, найди мне некоторую информацию о наводнении в южном Китае прошлой ночью»; в ответ VUI, знакомый с ее предпочтениями, «найдет» факты о «наводнении» в «южном Китае» из этого источника, преобразует их в точечную форму и доставит ей на экран и / или в голосовой форме, в комплекте с цитатой. Следовательно, потребуется точное программное обеспечение распознавания речи, а также некоторая степень искусственного интеллекта со стороны машины, связанной с VUI.

Последствия для конфиденциальности

Проблемы конфиденциальности возникают в связи с тем, что голосовые команды доступны поставщикам голосовых пользовательских интерфейсов в незашифрованном виде и, таким образом, могут передаваться третьим лицам и обрабатываться в несанкционированным или неожиданным образом. В дополнение к лингвистическому содержанию записанной речи манера выражения и характеристики голоса пользователя могут неявно содержать информацию о его или ее биометрической личности, личностных характеристиках, форме тела, физическом и психическом состоянии здоровья, поле, поле, настроении и эмоциях, социально-экономическом статусе. и географическое происхождение.

См. также

Ссылки

Внешние ссылки