Мультимодальное взаимодействие

редактировать

Не путать с режимом (пользовательский интерфейс).

Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. Мультимодальный интерфейс обеспечивает несколько различных инструментов для ввода и вывода данных.

СОДЕРЖАНИЕ

1 Введение
2 Мультимодальный ввод
- 2.1 Мультимодальный анализ тональности
3 Мультимодальный вывод
4 Мультимодальный фьюжн
5 Неопределенность
6 См. Также
7 ссылки
8 Внешние ссылки

Вступление

Мультимодальное взаимодействие человека и компьютера относится к «взаимодействию с виртуальной и физической средой посредством естественных способов коммуникации». Это означает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, обеспечивая взаимодействие пользователей с автоматизированными системами как на входе, так и на выходе. В частности, мультимодальные системы могут предлагать гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать с помощью методов ввода, таких как речь, почерк, жесты руки и взгляд, а также получать информацию системой с помощью таких методов вывода, как синтез речи, интеллектуальная графика. и другие подходящие способы сочетания. Затем мультимодальная система должна распознавать входные данные от различных модальностей, комбинируя их в соответствии с временными и контекстными ограничениями, чтобы позволить их интерпретацию. Этот процесс известен как мультимодальный синтез, и он является объектом нескольких исследований с девяностых годов до настоящего времени. Входы с предохранителями интерпретируются системой. Естественность и гибкость могут давать более одной интерпретации для каждой разной модальности (канала) и для их одновременного использования, и, следовательно, они могут вызывать многомодальную неоднозначность, как правило, из-за неточности, шумов или других подобных факторов. Для решения неоднозначностей было предложено несколько методов. Наконец, система возвращается к пользовательским выводам через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (делением). Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, связанной с мультимодальным взаимодействием. «Использование облака для вовлечения общих вычислительных ресурсов в управление сложностью мультимодального взаимодействия представляет собой возможность. Фактически, облачные вычисления позволяют предоставлять общие масштабируемые, конфигурируемые вычислительные ресурсы, которые могут динамически и автоматически выделяться и высвобождаться».

Мультимодальный ввод

Две основные группы мультимодальных интерфейсов объединились: одна связана с альтернативными методами ввода, а другая - с комбинированным вводом / выводом. Первая группа интерфейсов объединила в себе различные режимы пользовательского ввода помимо традиционного ввода / вывода с клавиатуры и мыши, такие как речь, перо, прикосновение, ручные жесты, взгляд, движения головы и тела. Наиболее распространенный такой интерфейс сочетает в себе визуальную модальность (например, дисплей, клавиатуру и мышь) с речевой модальностью ( распознавание речи для ввода, синтез речи и записанный звук для вывода). Однако могут использоваться другие методы, такие как ввод с помощью пера или осязательный ввод / вывод. Мультимодальные пользовательские интерфейсы - это область исследований взаимодействия человека с компьютером (HCI).

Преимущество множественных модальностей ввода заключается в повышении удобства использования : слабые стороны одной модальности компенсируются сильными сторонами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложно набрать, но очень легко произнести (например, Poughkeepsie ). Подумайте, как вы будете получать доступ и выполнять поиск в каталогах цифровых мультимедиа с этих же устройств или телевизионных приставок. И в одном из реальных примеров информация о пациенте в операционной комнате доступна устно для членов хирургической бригады, чтобы поддерживать антисептическую среду, и представлена почти в реальном времени на слух и визуально для максимального понимания.

Пользовательские интерфейсы мультимодального ввода влияют на доступность. Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с ослабленным зрением полагаются на голосовую модальность при вводе с клавиатуры. Пользователи с нарушением слуха полагаются на визуальную модальность с некоторым речевым вводом. Другие пользователи будут «неадекватно ситуативно» (например, носить перчатки в очень шумной обстановке, управлять автомобилем или вводить номер кредитной карты в общественном месте) и будут просто использовать соответствующие способы по своему усмотрению. С другой стороны, мультимодальное приложение, которое требует, чтобы пользователи могли работать со всеми модальностями, очень плохо спроектировано.

Наиболее распространенная на рынке форма мультимодальности ввода использует язык разметки веб-страниц XHTML + Voice (также известный как X + V), открытую спецификацию, разработанную IBM, Motorola и Opera Software. X + V в настоящее время рассматривается W3C и объединяет несколько Рекомендаций W3C, включая XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML Events, стандарт интеграции языков XML. Мультимодальные браузеры, поддерживающие X + V, включают мультимодальную среду IBM WebSphere Everyplace, Opera для встроенных Linux и Windows и ACCESS Systems NetFront для Windows Mobile. Для разработки мультимодальных приложений, разработчики программного обеспечения могут использовать набор инструментальных средств разработки программного обеспечения, такие как IBM WebSphere мультимодальных Toolkit, на основе открытого кода Eclipse, рамки, которая включает в себя X + V отладчик, редактор и симулятор.

Мультимодальный анализ тональности

Этот раздел представляет собой отрывок из мультимодального анализа настроений [ править ]

Мультимодальный анализ тональности - это новое измерение традиционного анализа тональности на основе текста, которое выходит за рамки анализа текстов и включает другие методы, такие как аудио и визуальные данные. Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности. С обширным количеством социальных медиа данных, доступных онлайн в различных формах, такие как видео и изображения, обычный текст на основе анализ настроений эволюционировали в более сложные модели мультимодального анализа настроений, которые могут быть применены в разработке виртуальных помощников, анализ из Обзоры фильмов на YouTube, анализ новостных видеороликов и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии.

Подобно традиционному анализу настроений, одной из основных задач мультимодального анализа настроений является классификация настроений, которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. Сложность анализа текста, аудио и визуальных функций для выполнения такой задачи требует применения различных методов слияния, таких как уровень функций, уровень принятия решений и гибридное слияние. На эффективность этих методов слияния и применяемых алгоритмов классификации влияет тип текстовых, звуковых и визуальных характеристик, используемых в анализе.

Мультимодальный вывод

Вторая группа мультимодальных систем предоставляет пользователям мультимедийные дисплеи и мультимодальный вывод, в первую очередь в форме визуальных и слуховых сигналов. Дизайнеры интерфейсов также начали использовать другие методы, такие как прикосновение и обоняние. Предлагаемые преимущества мультимодальной выходной системы включают синергию и избыточность. Информация, которая представлена несколькими способами, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей для обработки одной и той же информации обеспечивает увеличенную пропускную способность передачи информации. В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между средой связи и контентом и для поддержки управления вниманием в среде с большим количеством данных, где операторы сталкиваются со значительными требованиями к визуальному вниманию.

Важным шагом в дизайне мультимодального интерфейса является создание естественных сопоставлений между модальностями и информацией и задачами. Слуховой канал отличается от зрения по нескольким аспектам. Он всенаправлен, преходящ и всегда зарезервирован. Речевой вывод, одна из форм слуховой информации, получил значительное внимание. Было разработано несколько руководств по использованию речи. Михаэлис и Виггинс (1982) предложили использовать речевой вывод для простых коротких сообщений, о которых мы не будем говорить позже. Также было рекомендовано, чтобы речь была своевременной и требовала немедленного ответа.

Чувство осязания было впервые использовано в качестве средства общения в конце 1950-х годов. Это не только перспективный, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, осязание является ближайшим: оно ощущает объекты, которые контактируют с телом, и является двунаправленным, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.

Примеры слуховой обратной связи включают звуковые значки в компьютерных операционных системах, указывающие действия пользователей (например, удаление файла, открытие папки, ошибку), речевой вывод для представления навигационных указаний в транспортных средствах и речевой вывод для предупреждения пилотов в кабинах современных самолетов. Примеры тактильных сигналов включают вибрацию рычага указателя поворота, чтобы предупредить водителей о том, что автомобиль находится в их слепой зоне, вибрацию автокресла в качестве предупреждения для водителей и вибрацию ручки на современных самолетах, предупреждающую пилотов о надвигающемся сваливании.

Невидимые интерфейсные пространства стали доступны с помощью сенсорной технологии. В настоящее время широко используются инфракрасный, ультразвуковой и камеры. Прозрачность взаимодействия с контентом повышается, обеспечивая немедленную и прямую ссылку через осмысленное отображение, таким образом, у пользователя есть прямая и немедленная обратная связь на ввод, а ответ контента становится доступностью интерфейса (Гибсон, 1979).

Мультимодальный фьюжн

Процесс интеграции информации из различных входных модальностей и объединения их в полную команду называется мультимодальным объединением. В литературе были предложены три основных подхода к процессу слияния в соответствии с основными архитектурными уровнями (распознавание и решение), на которых может выполняться слияние входных сигналов: на основе распознавания, на основе решений и гибридных многоуровневых слияние.

Слияние на основе распознавания (также известное как раннее слияние) заключается в слиянии результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, методы статистической интеграции, теория агентов, скрытые марковские модели, искусственные нейронные сети и т. Д. Примеры Основанных на распознавании стратегий слияния - это рамка действия, входные векторы и слоты.

Слияние на основе решений (также известное как позднее слияние) объединяет семантическую информацию, извлеченную с помощью определенных процедур слияния, управляемых диалогом, для получения полной интерпретации. Примерами стратегий слияния на основе решений являются типизированные структуры признаков, плавильные котлы, семантические фреймы и решетки с отметками времени.

Потенциальные приложения для мультимодального слияния включают учебную среду, отношения с потребителями, безопасность / наблюдение, компьютерную анимацию и т. Д. По отдельности режимы легко определить, но возникают трудности с тем, чтобы технология считала их комбинированным слиянием. Алгоритмам сложно учесть размерность; существуют переменные, выходящие за рамки текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию.

В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридное многоуровневое слияние включает следующие три методологии: преобразователи с конечным числом состояний, мультимодальные грамматики и диалоги.

Двусмысленность

Действия или команды пользователя создают мультимодальные входные данные (мультимодальное сообщение), которые должны интерпретироваться системой. Мультимодальное сообщение - это среда, которая обеспечивает связь между пользователями и мультимодальными системами. Он получается путем объединения информации, которая передается с помощью нескольких модальностей, с учетом различных типов сотрудничества между несколькими модальностями, временных отношений между задействованными модальностями и отношений между порциями информации, связанными с этими модальностями.

Естественное отображение между мультимодальным входом, которое обеспечивается несколькими модальностями взаимодействия (визуальный и слуховой канал и осязание), и информацией и задачами, подразумевает управление типичными проблемами человеческого общения, такими как двусмысленность. Неоднозначность возникает, когда возможна более чем одна интерпретация ввода. Мультимодальная неоднозначность возникает как в том случае, если элемент, который обеспечивается одной модальностью, имеет более одной интерпретации (т. Е. Неоднозначность распространяется на мультимодальном уровне), так и / или если элементы, связанные с каждой модальностью, интерпретируются однозначно, но информация упомянутые разные модальности несогласованы на синтаксическом или семантическом уровне (т. е. мультимодальное предложение, имеющее разные значения или другую синтаксическую структуру).

В «Управлении неоднозначностями» методы разрешения неоднозначностей и обеспечения правильной интерпретации ввода пользователя разделены на три основных класса: предотвращение, апостериорное разрешение и методы разрешения аппроксимации.

Методы предотвращения вынуждают пользователей следовать заранее определенному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примеры методов профилактики: процедурный метод, снижение выразительной силы языковой грамматики, улучшение выразительной силы языковой грамматики.

Апостериорное разрешение неоднозначности использует подход медиации. Примерами методов посредничества являются: повторение, например, повторение по модальности, степень детализации исправления и отмены, а также выбор.

Методы разрешения аппроксимации не требуют участия пользователя в процессе устранения неоднозначности. Все они могут потребовать использования некоторых теорий, таких как нечеткая логика, марковское случайное поле, байесовские сети и скрытые марковские модели.

Смотрите также

Независимость от устройства
Мультимодальная биометрическая система
Мультимодальный поиск
Распознавание речи
W3C's Multimodal Interaction Activity - инициатива W3C, направленная на предоставление средств (в основном XML ) для поддержки сценариев мультимодального взаимодействия в сети.
Веб-доступность
Проводная перчатка
XHTML + голос

Рекомендации

Внешние ссылки

W3C Мультимодальное взаимодействие
XHTML + Voice Profile 1.0, W3C Note 21 декабря 2001 г.
Хост, Лоде, Дюма, Бруно и Сигнер, Beat: Mudra: A Unified Multimodal Interaction Framework, В материалах 13-й Международной конференции по мультимодальному взаимодействию (ICMI 2011), Аликанте, Испания, ноябрь 2011 г.
Тоселли, Алехандро Эктор, Видаль, Энрике, Касакуберта, Франциско: мультимодальное интерактивное распознавание образов и приложения, Springer, 2011.