Устройство для генерации речи

редактировать

Стивен Хокинг, покойный астрофизик и известный пользователь SGD

Устройства для генерации речи (SGD ), также известные как средства связи с речевым выводом, представляют собой электронные дополнительные и альтернативные системы связи (AAC), используемые для дополнения или замены речи или письма для лиц с тяжелым нарушения речи, позволяющие им устно общаться. SGD важны для людей, у которых ограничены средства вербального взаимодействия, поскольку они позволяют людям стать активными участниками коммуникативных взаимодействий. Они особенно полезны для пациентов, страдающих боковым амиотрофическим склерозом (БАС), но недавно были использованы для детей с прогнозируемыми дефектами речи.

Существует несколько методов ввода и отображения для пользователей с различными способностями. использовать SGD. Некоторые SGD имеют несколько страниц символов для размещения большого количества высказываний, и, таким образом, только часть доступных символов видна в любой момент времени, когда коммуникатор перемещается по различным страницам. Устройства, генерирующие речь, могут производить электронный речевой вывод с использованием оцифрованных записей естественной речи или с помощью синтеза речи, что может нести меньше эмоциональной информации, но может позволить пользователю произносить новые сообщения.

На содержание, организацию и обновление словаря в SGD влияет ряд факторов, таких как потребности пользователя и контексты, в которых будет использоваться устройство. Разработка методов для улучшения доступных словарный запас и скорость производства речи - активная область исследований. Словарные элементы должны вызывать большой интерес у пользователя, быть часто применимыми, иметь широкий диапазон значений и быть прагматичными по функциональности.

Существует несколько методов доступа к сообщениям на устройствах: прямо или косвенно или с помощью специализированных устройства доступа - хотя конкретный метод доступа будет зависеть от навыков и способностей пользователя. Выходной сигнал SGD обычно намного медленнее, чем речь, хотя стратегии повышения скорости могут увеличить скорость вывода пользователя, что приведет к повышению эффективности связи.

Первый известный SGD был прототипирован в середине 1970-е годы и быстрый прогресс в разработке аппаратного обеспечения и программного обеспечения означают, что возможности SGD теперь могут быть интегрированы в такие устройства, как смартфоны. Известными пользователями SGD являются Стивен Хокинг, Роджер Эберт, Тони Праудфут и Пит Фрейтс (основатель ALS Ice Bucket Challenge ).

Системы генерации речи могут быть специализированными устройствами, разработанными исключительно для AAC, или неспециализированными устройствами, такими как компьютеры с дополнительным программным обеспечением, позволяющим им функционировать как устройства AAC.

Содержание

1 История
2 Методы доступа
3 Построение сообщений
4 Фиксированные и динамические устройства отображения
- 4.1 Фиксированные устройства отображения
- 4.2 Устройства динамического отображения
- 4.3 Говорящие клавиатуры
5 Вывод
- 5.1 Оцифрованная речь
- 5.2 Синтезированная речь
6 Программирование
7 Набор выбора и словарь
- 7.1 Исходный выбор содержимого
- 7.2 Автоматическое ведение содержимого
- 7.3 Этические проблемы
8 Проблемы
9 См. Также
10 Источники
11 Библиография

История

Механизм выбора, управляемый пациентом (POSM или POSSUM), был разработан в начале 1960-х.

SGD уходят корнями в ранние электронные средства связи. Первым таким помощником стал контроллер пишущей машинки глоток, названный механизмом выбора, управляемым пациентом (POSSUM), прототипом которого был Reg Maling в Соединенном Королевстве в 1960 году. POSSUM сканировал с помощью набор символов на светящемся дисплее. Исследователи из Делфтского университета в Нидерландах в 1970 году создали пишущую машинку с управлением от световых пятен (LOT), в которой использовались небольшие движения головы, чтобы направить небольшое световое пятно на матрицу символов, каждый из которых оснащен фотоэлемент. Хотя это было коммерчески неудачным, LOT был хорошо принят пользователями.

В 1966 году Барри Ромич, первокурсник инженерного факультета Университета Кейс Вестерн Резерв, и Эд Прентке, инженер больницы Хайленд Вью в Кливленде, Огайо сформировало партнерство, создав расширение. В 1969 году компания выпустила свое первое коммуникационное устройство - систему набора текста, основанную на списанной машине Teletype.

В течение 1970-х и начала 1980-х годов начали появляться несколько других компаний, которые с тех пор стали известными производителями SGD. Тоби Черчилль основал компанию Toby Churchill Ltd. в 1973 году после потери речи из-за энцефалита. В США компания Dynavox (тогда известная как Sentient Systems Technology) выросла из студенческого проекта Университета Карнеги-Меллона, созданного в 1982 году для помощи молодой женщине с церебральной болезнью. паралич общаться. Начиная с 1980-х годов, усовершенствования технологий привели к значительному увеличению количества, разнообразия и производительности коммерчески доступных устройств связи, а также уменьшению их размера и цены. Альтернативные методы доступа, такие как сканирование цели (также известное как наведение глаз), калибруют движение глаз пользователя, чтобы направить SGD для создания желаемой фазы речи. Сканирование, при котором пользователю последовательно представляются альтернативы, стало доступно на устройствах связи. Возможности вывода речи включают как оцифрованную, так и синтезированную речь.

Продолжается быстрый прогресс в разработке оборудования и программного обеспечения, включая проекты, финансируемые Европейским сообществом. Первые коммерчески доступные устройства для генерации речи с динамическим экраном были разработаны в 1990-х годах. Было разработано программное обеспечение, позволяющее производить на базе компьютеров коммуникационные платы. Высокотехнологичные устройства продолжают становиться меньше и легче, с одновременным увеличением доступности и возможностей; к устройствам связи можно получить доступ с помощью систем отслеживания взгляда, они работают как компьютер для обработки текстов и использования Интернета, а также как устройство управления средой для независимого доступа на другое оборудование, такое как телевидение, радио и телефоны.

Стивен Хокинг стал ассоциироваться с уникальным голосом его конкретного синтезатора. Хокинг не мог говорить из-за сочетания тяжелой инвалидности, вызванной БАС, и экстренной трахеотомии. За последние 20 лет или около того SGD приобрели популярность среди маленьких детей с дефектами речи, такими как аутизм, синдром Дауна и прогнозируемым повреждением головного мозга в результате хирургического вмешательства.

Начиная с начала 2000-х годов специалисты увидели пользу от использования SGD не только для взрослых, но и для детей. Нейролингвисты обнаружили, что SGD столь же эффективны при помощи детям, которые подвергались риску временного дефицита речи после операции на головном мозге, как и пациентам с БАС. В частности, оцифрованные SGD использовались в качестве средств коммуникации для педиатрических пациентов в процессе выздоровления.

Методы доступа

Существует множество методов доступа к сообщениям на устройствах: прямо, косвенно и с помощью специализированных устройств доступа. Методы прямого доступа предполагают физический контакт с системой с помощью клавиатуры или сенсорного экрана. Пользователи, обращающиеся к SGD косвенно и через специализированные устройства, должны манипулировать объектом, чтобы получить доступ к системе, например, маневрировать джойстиком , головной мышью, оптическим указателем головки, световым указателем, инфракрасным указателем или переключателем доступа. сканер.

Конкретный метод доступа будет зависеть от навыков и способностей пользователя. При прямом выборе можно использовать часть тела, указатель, адаптированную мышь, джойстик или отслеживание взгляда, тогда как переключение доступа, сканирование часто используется для косвенного выбора. В отличие от прямого выбора (например, набора текста на клавиатуре, касания экрана), пользователи Target Scanning могут делать выбор только тогда, когда индикатор сканирования (или курсор) электронного устройства находится на желаемом выборе. Те, кто не может указывать, обычно калибруют свои глаза, чтобы использовать взгляд как способ указывать и блокировать как способ выбора желаемых слов и фраз. Скорость и шаблон сканирования, а также способ выбора элементов индивидуализируются в зависимости от физических, визуальных и когнитивных возможностей пользователя.

Создание сообщения

Снимок экрана Dasher программа повышения скорости

Дополнительное и альтернативное общение обычно намного медленнее, чем речь, при этом пользователи обычно производят 8–10 слов в минуту. Стратегии повышения скорости могут повысить скорость вывода пользователя примерно до 12–15 слов в минуту и, как результат, повысить эффективность общения.

В любом SGD может быть большое количество речевых выражений, которые способствуют эффективному и действенному общению, включая приветствия, выражение желаний и задавание вопросов. Некоторые SGD имеют несколько страниц символов для размещения большого количества голосовых выражений, и, таким образом, только часть доступных символов видна в любой момент времени, когда коммуникатор перемещается по различным страницам. Устройства генерации речи обычно отображают набор вариантов выбора либо с использованием динамически изменяющегося экрана, либо с использованием фиксированного дисплея.

Существует два основных варианта увеличения скорости передачи данных для SGD: кодирование и прогнозирование.

Кодирование позволяет пользователю создавать слово, предложение или фразу, используя только одну или две активации их SGD. Стратегии графического кодирования, такие как семантическое сжатие, объединяют последовательности значков (графических символов) для создания слов или фраз. В числовой, буквенно-цифровой и буквенной кодировке (также известной как аббревиатура-расширение) слова и предложения кодируются как последовательности букв и цифр. Например, ввод «HH» или «G1» (для приветствия 1) может привести к ответу «Привет, как дела?».

Прогнозирование - это стратегия повышения скорости, в которой SGD пытается уменьшить количество нажатий клавиш используется, предсказывая слово или фразу, написанную пользователем. Затем пользователь может выбрать правильный прогноз без необходимости писать все слово. Программное обеспечение для предсказания слов может определять предлагаемые варианты на основе их частоты использования в языке, связи с другими словами, прошлых выборов пользователя или грамматической пригодности. Однако было показано, что пользователи производят больше слов в минуту (с использованием интерфейса сканирования) со статической раскладкой клавиатуры, чем с прогнозирующей раскладкой сетки, что позволяет предположить, что когнитивные накладные расходы на просмотр новой компоновки сводят на нет преимущества предиктивной раскладки при использовании интерфейс сканирования.

Другой подход к повышению скорости - это Dasher, который использует языковые модели и арифметическое кодирование для представления альтернативных буквенных целей на экране с размером относительно их вероятность с учетом истории.

Скорость создания слов может сильно зависеть от концептуального уровня системы: система TALK, которая позволяет пользователям выбирать между большим количеством высказываний на уровне предложений, продемонстрировала скорость вывода в более 60 слов в минуту.

Фиксированные и динамические устройства отображения

Фиксированные устройства отображения

Устройство генерации речи с фиксированным дисплеем

Фиксированные устройства отображения относятся к тем, в которых символы и элементы "закреплены" в части icular формат; некоторые источники называют их "статическими" дисплеями. Такие устройства отображения имеют более простую кривую обучения, чем некоторые другие устройства.

Фиксированные устройства отображения воспроизводят типичную компоновку низкотехнологичных устройств AAC (под низкими технологиями понимаются устройства, которым не нужны батареи, электричество или электроника), например коммуникационные платы. У них есть некоторые недостатки; например, они обычно ограничиваются ограниченным числом символов и, следовательно, сообщениями. Важно отметить, что с технологическим прогрессом, достигнутым в двадцать первом веке, SGD с фиксированным дисплеем больше не используются повсеместно.

Устройства динамического отображения

Устройства динамического отображения обычно также являются устройствами с сенсорным экраном. Как правило, они генерируют визуальные символы, созданные в электронном виде, при нажатии которых изменяется отображаемый набор выбранных элементов. Пользователь может изменить доступные символы, используя ссылки на страницы для перехода к соответствующим страницам словаря и сообщений.

Устройство генерации речи с динамическим дисплеем, способное выводить как синтезированную, так и оцифрованную речь

«Домашняя» страница устройства динамического дисплея может отображать символы, относящиеся ко многим различным контекстам или темам разговора. Нажатие любого из этих символов может открыть другой экран с сообщениями, относящимися к этой теме. Например, при просмотре волейбольного матча пользователь может нажать символ «спорт», чтобы открыть страницу с сообщениями, относящимися к спорту, а затем нажать символ, показывающий табло, чтобы произнести фразу «Какой счет?».

Преимущества устройств динамического отображения включают в себя доступность гораздо большего словарного запаса и возможность видеть строящееся предложение. Еще одно преимущество устройств динамического отображения состоит в том, что базовая операционная система способна предоставлять варианты для множественного обмена данными каналы, включая сотовый телефон, обмен текстовыми сообщениями и электронную почту. Работа Университета Линчёпинга показала, что такая практика написания электронных писем позволила детям, которые были пользователями SGD, развить новые социальные навыки и активизировать свое социальное участие.

Говорящие клавиатуры

Клавиатура, используемая для создания речи по телефону с помощью преобразователя текста в речь.

Недорогие системы могут также включать в себя комбинацию клавиатуры и звукового динамика без динамического дисплея или визуального экрана. Этот тип клавиатуры отправляет набранный текст прямо на динамик. Он может позволить произнести любую фразу без необходимости использования визуального экрана, который не всегда требуется. Одно простое преимущество заключается в том, что говорящая клавиатура при использовании со стандартным телефоном или громкой связью может позволить человеку с нарушением голоса вести двусторонний разговор по телефону.

Выход

Выход SGD может быть оцифрованы и / или синтезированы: оцифрованные системы воспроизводят непосредственно записанные слова или фразы, в то время как синтезированная речь использует программное обеспечение для преобразования текста в речь, которое может нести менее эмоциональную информацию, но позволяет пользователю произносить новые сообщения, вводя новые слова. Сегодня люди используют комбинацию записанных сообщений и методов преобразования текста в речь на своих SGD. Однако некоторые устройства ограничены только одним типом вывода.

Оцифрованная речь

Простое устройство для генерации речи с переключателем

Слова, фразы или целые сообщения могут быть оцифрованы и сохранены на устройстве для воспроизведения, которое будет активировано пользователем. Этот процесс официально известен как голосовой банкинг. Преимущества записанной речи включают в себя то, что она (а) обеспечивает естественную просодию и естественность речи для слушателя (например, для записи сообщений может быть выбрано лицо того же возраста и пола, что и пользователь AAC) и ( б) он предусматривает дополнительные звуки, которые могут быть важны для пользователя, такие как смех или свист. Более того, цифровые SGD обеспечивают определенную степень нормальности как для пациента, так и для его семей, когда они теряют способность говорить самостоятельно.

Основным недостатком использования только записанной речи является то, что пользователи не могут создавать новые сообщения; они ограничиваются сообщениями, предварительно записанными в устройство. В зависимости от устройства может существовать ограничение на длину записей.

Синтезированная речь

SGD, которые используют синтезированную речь, применяют фонетические правила языка к преобразовать сообщение пользователя в речевой вывод (синтез речи ). Пользователи могут создавать новые слова и сообщения, не ограничиваясь только теми, которые были предварительно записаны на их устройство другими.

Смартфоны и компьютеры увеличили использование устройств синтезированной речи благодаря созданию приложений которые позволяют пользователю выбирать из списка фраз или сообщений для произнесения тем голосом и языком, которые он выбрал. Такие приложения, как SpeakIt! или Assistive Express для iPhone - это дешевый способ использования устройства, генерирующего речь, без необходимости посещения врача или обучения использованию специального оборудования.

Синтезированные SGD могут допускать несколько методов создания сообщений, которые могут использоваться индивидуально или в комбинации: сообщения могут быть созданы из букв, слов, фраз, предложений, изображений или символов. С синтезированной речью имеется практически неограниченный объем памяти для сообщений с небольшими требованиями к пространству памяти.

Механизмы синтезированной речи доступны на многих языках, а параметры механизма, такие как скорость речи, диапазон высоты тона, пол, шаблоны ударов Пользователь может управлять исключениями, паузами и произношением.

Программирование

Клавиатурное устройство преобразования текста в речь

Набор выбора и словарь

Набор выбора SGD представляет собой набор всех сообщений, символов и кодов, доступных человеку, использующему это устройство. Содержание, организация и обновление этого набора являются областями активных исследований и зависят от ряда факторов, включая способности, интересы и возраст пользователя. Набор для выбора для системы AAC может включать слова, которые пользователь еще не знает - они включены для пользователя, чтобы «вырасти». Контент, установленный на любом данном SGD, может включать в себя большое количество предустановленных страниц, предоставляемых производителем, с рядом дополнительных страниц, созданных пользователем или группой обслуживания пользователя в зависимости от потребностей пользователя и контекстов, в которых устройство будет использоваться..

Выбор исходного содержания

Исследователи Бекельман и Миренда перечисляют ряд возможных источников (например, членов семьи, друзей, учителей и обслуживающий персонал) для выбора исходного содержания для SGD. Требуется ряд источников, потому что, как правило, у одного человека не будет знаний и опыта для создания всех вокальных выражений, необходимых в любой данной среде. Например, родители и терапевты могут не думать о добавлении сленговых терминов, таких как «innit ".

. В предыдущей работе анализировалось как словарный запас типично развивающихся говорящих, так и использование слов пользователями AAC для создания контента для новых устройств AAC. процессы хорошо работают для генерации основного набора высказываний или речевых выражений, но менее эффективны в ситуациях, когда требуется конкретный словарный запас (например, термины, непосредственно связанные с интересом пользователя к верховой езде). Термин «второстепенный словарь» относится к словарному запасу которые специфичны или уникальны для личных интересов или потребностей человека. Типичный метод развития периферийного словаря для устройства - это проведение интервью с несколькими "информаторами": братьями и сестрами, родителями, учителями, коллегами и другими вовлеченными лицами.

Другие исследователи, такие как Масселуайт и Сент-Луис, предполагают, что начальные словарные элементы должны вызывать большой интерес у пользователя, быть часто применимыми, иметь широкий диапазон значений и быть прагматичными в функциональность. Эти критерии широко используются в области AAC в качестве экологической проверки содержимого SGD.

Автоматическое обслуживание содержимого

Пользователь AAC с настраиваемым устройством

Бекельман и Миренда подчеркивают, что выбор словаря также включает постоянный поддержание словарного запаса; однако сложность в AAC состоит в том, что пользователи или их опекуны должны вручную программировать любые новые высказывания (например, имена новых друзей или личные истории), а существующих коммерческих решений для автоматического добавления контента нет. Ряд исследовательских подходов пытались преодолеть эту трудность, они варьируются от «предполагаемых входных данных», таких как создание контента на основе журнала разговоров с друзьями и семьей пользователя, до данных, добытых из Интернета для поиска языковых материалов, таких как проект Webcrawler. Более того, используя подходы, основанные на Lifelogging, содержимое устройства может быть изменено на основе событий, которые происходят с пользователем в течение дня. Получая доступ к большему количеству данных пользователя, можно генерировать более качественные сообщения с риском раскрытия конфиденциальных данных пользователя. Например, используя системы глобального позиционирования, содержимое устройства может быть изменено в зависимости от географического положения.

Этические соображения

Многие недавно разработанные SGD включают инструменты измерения и анализа эффективности, помогающие контролировать контент, используемый отдельным лицом. Это вызывает опасения по поводу конфиденциальности, и некоторые утверждают, что пользователь устройства должен участвовать в принятии решения о мониторинге использования таким образом. Аналогичные опасения были высказаны в отношении предложений для устройств с автоматическим генерированием контента, и конфиденциальность все больше становится фактором при разработке SGD. Поскольку устройства AAC предназначены для использования во всех сферах жизни пользователя, существуют важные юридические, социальные и технические вопросы, связанные с широким кругом проблем управления персональными данными, которые можно найти в контексте AAC. использовать. Например, SGD может быть спроектирован так, чтобы поддерживать право пользователя удалять журналы разговоров или контент, который был добавлен автоматически.

Проблемы

Программирование устройств динамической генерации речи обычно выполняется специалистами по дополнительным коммуникациям. Специалисты должны удовлетворять потребности пациентов, потому что пациенты обычно выбирают, какие слова / фразы им нужны. Например, пациенты используют разные фразы в зависимости от своего возраста, инвалидности, интересов и т. Д. Таким образом, организация контента занимает очень много времени. Кроме того, медицинские страховые компании редко покрывают SGD. В результате ресурсы очень ограничены как в отношении финансирования, так и укомплектования персоналом. Доктор Джон Костелло из Бостонской детской больницы был движущей силой сбора пожертвований, чтобы эта программа работала и укомплектовывалась персоналом как в своей больнице, так и в больницах по всей стране.

См. Также

Orca (вспомогательные технологии)

Ссылки

Библиография