Нейровычислительная обработка речи

редактировать

Нейровычислительная обработка речи - это компьютерное моделирование формирования речи и восприятия речи, ссылаясь на естественные нейронные процессы производства речи и восприятия речи, как они происходят в человеческой нервной системе (центральной нервной системе и периферическая нервная система ). Эта тема основана на нейробиологии и вычислительной нейробиологии.

Содержание
  • 1 Обзор
  • 2 Темы нейровычислительной обработки речи
    • 2.1 Нейронные карты
    • 2.2 Нейронные представления (нейронные состояния)
    • 2.3 Нейронные отображения (синаптические проекции)
    • 2.4 Нейронные пути
  • 3 Модель DIVA
    • 3.1 Структура модели
      • 3.1.1 Звуковая карта речи: фонематическое представление в качестве отправной точки
      • 3.1.2 Управление с прямой связью: активация моторных представлений
      • 3.1.3 Артикуляционная модель: создание соматосенсорной и слуховой информации обратной связи
      • 3.1.4 Управление обратной связью: сенсорные целевые области, карты состояний и карты ошибок
    • 3.2 Обучение ( моделирование усвоения речи)
      • 3.2.1 Журчание
      • 3.2.2 Имитация
    • 3.3 Эксперименты с возмущениями
      • 3.3.1 Возмущение F1 в реальном времени: влияние слуховой обратной связи
      • 3.3.2 Неожиданная блокировка челюсти: влияние соматосенсорной обратной связи
  • 4 Модель ACT
    • 4.1 Структура
      • 4.1.1 Репозиторий действий
      • 4.1.2 M другие планы
    • 4.2 Интеграция сенсомоторных и когнитивных аспектов: соединение репозитория действий и ментального словаря
    • 4.3 Эксперименты: приобретение речи
    • 4.4 Эксперименты: восприятие речи
  • 5 См. также
  • 6 Ссылки
  • 7 Дополнительная литература
Обзор

Нейровычислительные модели обработки речи сложны. Они включают по меньшей мере когнитивную часть, моторную часть и сенсорную часть.

. Когнитивная или лингвистическая часть нейровычислительной модели обработки речи включает нейронную активацию или генерация фонематического представления на стороне продукции речи (например, нейрокомпьютерная и расширенная версия модели Levelt, разработанная Арди Рулофсом: WEAVER ++, а также нейронная активация или генерация намерения или значение со стороны восприятия речи или понимания речи.

моторная часть нейровычислительной модели обработки речи начинается с фонематического представления речевого элемента, активирует двигательный план и заканчивается артикуляцией этого конкретного речевого элемента (см. также: артикуляторная фонетика ).

сенсорная часть нейровычислительной модели обработки речи начинается с акустического сигнала речевого элемента (акустический речевой сигнал ), генерирует слуховое представление для этого сигнала и активирует фонематические представления для этого речевого элемента.

Темы нейровычислительной обработки речи

Нейровычислительная обработка речи - это обработка речи искусственными нейронными сетями. Нейронные карты, сопоставления и пути, описанные ниже, являются модельными структурами, то есть важными структурами в искусственных нейронных сетях.

Нейронные карты

Рис. 1: 2D нейрональная карта с локальным паттерном активации. пурпурный: нейрон с наивысшей степенью активации; синий: нейроны без активации

Искусственная нейронная сеть может быть разделена на три типа нейронных карт, также называемых «слоями»:

  1. входные карты (в случае обработки речи: первичная слуховая карта в пределах слуховая кора, первичная соматосенсорная карта в пределах выходных карт соматосенсорной коры ),
  2. (первичная моторная карта в первичной моторной коре ) и
  3. кортикальные карты более высокого уровня ( также называется «скрытыми слоями»).

Термин «нейронная карта» предпочтительнее термина «нейронный слой», потому что кортильная нейронная карта должна быть смоделирована как 2D-карта взаимосвязанных нейронов (например, как самоорганизующаяся карта ; см. также рис. 1). Таким образом, каждый «модельный нейрон» или «искусственный нейрон » на этой 2D-карте физиологически представлен кортикальным столбцом, поскольку кора головного мозга анатомически имеет слоистую структуру.

Нейронные представления (нейронные состояния)

Нейронные представления в искусственном нервном соединении ral network - это временно активированное (нейронное) состояние в пределах определенной нейронной карты. Каждое нервное состояние представлено определенным паттерном нейронной активации. Этот образец активации изменяется во время обработки речи (например, от слога к слогу).

Рис. 2: 2D нейрональная карта с распределенным паттерном активации. Пример: «нейронная спектрограмма » (это слуховое нейронное представление является умозрительным; см. Модель ACT ниже)

В модели ACT (см. Ниже) предполагается, что слуховое состояние может быть представлено «нейронная спектрограмма » (см. фиг. 2) на карте слухового состояния. Предполагается, что эта карта слухового состояния расположена в ассоциативной слуховой коре (см. кора головного мозга ).

Соматосенсорное состояние может быть разделено на тактильное и проприоцептивное состояние и может быть представлено конкретным паттерном нейронной активации на карте соматосенсорного состояния. Предполагается, что эта карта состояний находится в соматосенсорной ассоциации коры головного мозга (см. кора головного мозга, соматосенсорная система, соматосенсорная кора ).

Состояние двигательного плана может предполагаться для представления двигательного плана, то есть планирования речевой артикуляции для определенного слога или для более длинного речевого элемента (например, слова, короткой фразы). Предполагается, что эта карта состояний находится в премоторной коре, тогда как мгновенная (или более низкий уровень) активация каждого речевого артикулятора происходит в первичной моторной коре (см. моторная кора ).

Нейронные репрезентации, встречающиеся на сенсорных и моторных картах (как представлено выше), являются распределенными репрезентациями (Hinton et al., 1968): каждый нейрон на сенсорной или моторной карте более или менее активирован, что приводит к определенному шаблон активации.

Нейронное представление речевых единиц, встречающихся в звуковой карте речи (см. Ниже: модель DIVA), является точечным или локальным представлением. Каждый речевой элемент или речевая единица здесь представлены определенным нейроном (модельная ячейка, см. Ниже).

Нейронные отображения (синаптические проекции)

Рис. 3: Нейронное отображение между фонетической картой (локальный паттерн активации для определенного фонетического состояния), картой состояния моторного плана (распределенный паттерн активации) и картой слухового состояния (распределенный паттерн активации) как часть модели ACT. Показаны только нейронные связи с нейроном-победителем на фонетической карте.

Нейронное отображение соединяет две корковые нейронные карты. Нейронные отображения (в отличие от нейронных путей) хранят обучающую информацию, регулируя веса их нейронных связей (см. искусственный нейрон, искусственные нейронные сети ). Нейронные сопоставления способны генерировать или активировать распределенное представление (см. Выше) сенсорного или моторного состояния на сенсорной или моторной карте из точечной или локальной активации в пределах другой карты (см., Например, синаптическую проекцию от звуковой карты речи на моторную). map, на карту слуховой целевой области или на карту соматосенсорной целевой области в модели DIVA, как поясняется ниже; или посмотрите, например, нейронное отображение от фонетической карты до карты слухового состояния и карты состояния моторного плана в модели ACT, как описано ниже и на рис.. 3).

Нейронные карты между двумя нейронными картами компактны или плотны: каждый нейрон одной нейронной карты связан (почти) с каждым нейроном другой нейронной карты (связь "многие-ко-многим", см. искусственный нейронные сети ). Из-за этого критерия плотности для нейронных отображений нейронные карты, которые связаны между собой нейронным отображением, находятся недалеко друг от друга.

Нервные пути

В отличие от нейронных отображений нервные пути могут соединять нервные карты, которые находятся далеко друг от друга (например, в разных долях коры, см. кора головного мозга ). С функциональной точки зрения или точки зрения моделирования нейронные пути в основном передают информацию, не обрабатывая эту информацию. Нейронный путь по сравнению с нейронным картированием требует гораздо меньше нейронных связей. Нейронный путь может быть смоделирован с использованием однозначного соединения нейронов обеих нейронных карт (см. топографическое отображение и см. соматотопическое расположение ).

Пример: в случае двух нейронных карт, каждая из которых содержит 1000 модельных нейронов, для нейронного отображения требуется до 1000000 нейронных соединений (соединения многие-ко-многим), в то время как в этом случае требуется только 1000 соединений. связи нервных путей.

Кроме того, веса связей соединений в нейронном отображении регулируются во время обучения, в то время как нейронные связи в случае нейронного пути не нужно обучать (каждое соединение является максимально показательным).

Модель DIVA

Ведущим подходом в нейровычислительном моделировании производства речи является модель DIVA, разработанная Фрэнком Х. Гюнтером и его группой в Бостонском университете. Модель учитывает широкий диапазон фонетических и данных нейровизуализации, но, как и каждая нейровычислительная модель, остается в некоторой степени спекулятивной.

Структура модели

Рис. 4: Организация модели DIVA; Этот рисунок является адаптацией вслед за Guenther et al. 2006

Организация или структура модели DIVA показана на рис. 4.

Звуковая карта речи: фонематическое представление в качестве отправной точки

Звуковая карта речи - предполагается расположен в нижней и задней части области области Брока (левая лобная крышка) - представляет (фонологически заданные) языковые речевые единицы (звуки, слоги, слова, короткие фразы). Каждая речевая единица (в основном слоги; например, слог и слово «ладонь» / pam /, слоги / pa /, / ta /, / ka /,...) представлена ​​определенной модельной ячейкой в ​​звуковой карте речи ( то есть точечные нейронные репрезентации, см. выше). Каждая модельная клетка (см. искусственный нейрон ) соответствует небольшой популяции нейронов, которые расположены на близком расстоянии и срабатывают вместе.

Управление с прогнозированием: активация моторных представлений

Каждый нейрон (модельная ячейка, искусственный нейрон ) в звуковой карте речи может быть активирован и впоследствии активирует двигательную команду вперед по направлению к моторная карта, называемая картой артикуляционной скорости и положения. Активированное нейронное представление на уровне этой моторной карты определяет артикуляцию речевой единицы, то есть управляет всеми артикуляторами (губами, языком, велумом, голосовой щелью) в течение временного интервала для создания этой речевой единицы. Прямой контроль также включает подкорковые структуры, такие как мозжечок, которые здесь подробно не моделируются.

Речевой блок представляет собой количество речевых элементов, которые могут быть отнесены к одной и той же фонематической категории. Таким образом, каждая речевая единица представлена ​​одним конкретным нейроном в звуковой карте речи, в то время как реализация речевой единицы может демонстрировать некоторую артикуляционную и акустическую изменчивость. Эта фонетическая изменчивость является мотивацией для определения сенсорных областей-мишеней в модели DIVA (см. Guenther et al. 1998).

Артикуляторная модель: генерирование информации соматосенсорной и слуховой обратной связи

Паттерн активации в моторной карте определяет паттерн движения всех модельных артикуляторов (губы, язык, велум, голосовая щель) для речевого элемента. Чтобы не перегружать модель, подробное моделирование нервно-мышечной системы не проводится. Синтезатор артикуляционной речи Maeda используется для генерации движений артикулятора, что позволяет генерировать изменяющуюся во времени форму речевого тракта и генерировать акустический речевой сигнал для каждого конкретного речевого элемента.

В терминах искусственного интеллекта артикуляционная модель может быть названа растением (то есть системой, которой управляет мозг); он представляет собой часть варианта нейронной системы обработки речи. Артикуляторная модель генерирует сенсорный выход, который является основой для генерации информации обратной связи для модели DIVA (см. Ниже: управление обратной связью).

Управление обратной связью: сенсорные целевые области, карты состояний и карты ошибок

С одной стороны, артикуляционная модель генерирует сенсорную информацию, т.е. слуховое состояние для каждой речевой единицы которое нейронно представлено в карте слухового состояния (распределенное представление), и соматосенсорное состояние для каждой речевой единицы, которое нейронно представлено в карте соматосенсорного состояния (также распределенное представление). Предполагается, что карта слухового состояния расположена в верхней височной коре, тогда как карта соматосенсорного состояния расположена в нижней теменной коре.

С другой стороны, звуковая карта речи, если он активирован для конкретной речевой единицы (активация одного нейрона; точечная активация), активирует сенсорную информацию посредством синаптических проекций между звуковой картой речи и слуховой картой целевой области, а также между звуковой картой речи и соматосенсорной картой целевой области. Предполагается, что слуховые и соматосенсорные области-мишени расположены в слуховых областях коры более высокого порядка и в соматосенсорных областях коры более высокого порядка соответственно. Эти паттерны сенсорной активации целевой области, которые существуют для каждой речевой единицы, изучаются во время приобретения речи (путем имитационного обучения; см. Ниже: обучение).

Следовательно, доступны два типа сенсорной информации, если речевой модуль активирован на уровне звуковой карты речи: (i) изученные сенсорные целевые области (т.е. предполагаемое сенсорное состояние для речевого модуля) и (ii)) паттерны активации сенсорного состояния, возникающие в результате возможно несовершенного исполнения (артикуляции) конкретной речевой единицы (т. е. текущего сенсорного состояния, отражающего текущее производство и артикуляцию этой конкретной речевой единицы). Оба типа сенсорной информации проецируются на карты сенсорных ошибок, т. Е. На карту слуховых ошибок, которая, как предполагается, находится в верхней височной коре (как карта слухового состояния), и на карту соматосенсорных ошибок, которая Предполагается, что они расположены в нижней теменной коре (как на карте соматосенсорного состояния) (см. рис. 4).

Если текущее сенсорное состояние отклоняется от предполагаемого сенсорного состояния, обе карты ошибок генерируют команды обратной связи, которые проецируются на моторную карту и могут корректировать паттерн моторной активации и, следовательно, артикуляцию речевого блока. в производстве. Таким образом, в целом на паттерн активации моторной карты влияет не только конкретная команда прямой связи, изученная для речевого блока (и генерируемая синаптической проекцией из звуковой карты речи), но также и команда обратной связи, генерируемая на уровне карты сенсорных ошибок (см. рис. 4).

Обучение (моделирование усвоения речи)

В то время как структура нейробиологической модели обработки речи (приведенная на рис. 4 для модели DIVA) в основном определяется эволюционными процессами, (языковые) знания, а также (языковые) разговорные навыки изучаются и тренируются во время освоения речи. В случае модели DIVA предполагается, что новорожденный не имеет уже структурированной (зависящей от языка) звуковой карты речи; то есть ни один нейрон в звуковой карте речи не связан с какой-либо речевой единицей. Скорее организация звуковой карты речи, а также настройка проекций на моторную карту и сенсорные карты целевой области изучаются или обучаются во время получения речи. В подходе DIVA моделируются две важные фазы раннего овладения речью: обучение с помощью лепета и имитации.

лепета

Во время лепета синаптических проекций между сенсорной ошибкой карты и моторной картой настроены. Это обучение выполняется путем генерации количества полуслучайных команд с прямой связью, то есть модель DIVA «лепет». Каждая из этих команд лепетания приводит к созданию «артикуляционного элемента», также обозначаемого как «долингвистический (т.е. не зависящий от языка) речевой элемент» (то есть артикуляционная модель генерирует модель артикуляционных движений на основе моторики лепета. команда). Затем раздается звуковой сигнал.

На основе артикуляционного и акустического сигнала активируется определенный паттерн слухового и соматосенсорного состояния на уровне карт сенсорных состояний (см. Рис. 4) для каждого (доязыкового) речевого элемента. На данный момент модель DIVA имеет доступный сенсорный и связанный паттерн моторной активации для различных речевых элементов, что позволяет модели настраивать синаптические проекции между сенсорной картой ошибок и моторной картой. Таким образом, во время лепета модель DIVA изучает команды обратной связи (т. Е. Как произвести правильную (обратную) моторную команду для определенного сенсорного ввода).

Имитация

Во время имитации модель DIVA организует свою звуковую карту речи и настраивает синаптические проекции между звуковой картой речи и моторной картой, т. Е. Настройкой движущихся вперед команд, как а также синаптические проекции между звуковой картой речи и сенсорными целевыми областями (см. рис. 4). Имитационное обучение выполняется путем воздействия на модель определенного количества акустических речевых сигналов, представляющих реализации языковых речевых единиц (например, отдельные звуки речи, слоги, слова, короткие фразы).

Настройка синаптических проекций между звуковой картой речи и картой слуховой целевой области достигается путем присвоения одного нейрона звуковой карты речи фонематическому представлению этого речевого элемента и путем связывания его со слуховым представлением этого элемента. речевой элемент, который активируется на слуховой карте целевой области. Слуховые области (т.е. спецификация слуховой изменчивости речевой единицы) возникают, потому что одна конкретная речевая единица (то есть одно конкретное фонематическое представление) может быть реализована несколькими (слегка) разными акустическими (слуховыми) реализациями (для разницы между речевыми элементами) и речевой блок (см. выше: управление с прогнозированием).

Настройка синаптических проекций между звуковой картой речи и моторной картой (т. Е. Настройка прямых моторных команд) выполняется с помощью команд обратной связи, поскольку проекции между сенсорной картой ошибок и моторной картой уже были настроены во время обучение лепету (см. выше). Таким образом, модель DIVA пытается «имитировать» элемент слуховой речи, пытаясь найти правильную двигательную команду с прямой связью. Затем модель сравнивает результирующий сенсорный выход (текущее сенсорное состояние после артикуляции этой попытки) с уже изученной слуховой целевой областью (предполагаемое сенсорное состояние) для этого речевого элемента. Затем модель обновляет текущую команду двигателя с прямой связью с помощью команды двигателя с обратной связью по току, сгенерированной из карты слуховых ошибок системы слуховой обратной связи. Этот процесс может повторяться несколько раз (несколько попыток). Модель DIVA способна производить речевой элемент с уменьшающейся слуховой разницей между текущим и предполагаемым слуховым состоянием от попытки до попытки.

Во время имитации модель DIVA также способна настраивать синаптические проекции из звуковой карты речи на карту соматосенсорной целевой области, поскольку каждая новая попытка имитации вызывает новую артикуляцию речевого элемента и, таким образом, производит соматосенсорную шаблон состояния, который связан с фонематическим представлением этого речевого элемента.

Эксперименты с возмущениями

Возмущение F1 в реальном времени: влияние слуховой обратной связи

Хотя слуховая обратная связь наиболее важна во время овладения речью, ее можно активировать меньше, если модель выучил правильную команду двигателя с прямой связью для каждого речевого блока. Но было показано, что слуховая обратная связь должна сильно коактивироваться в случае слухового возмущения (например, сдвиг частоты формант, Tourville et al. 2005). Это сравнимо с сильным влиянием визуальной обратной связи на достижение движений во время визуального возмущения (например, изменение местоположения объектов при просмотре через призму ).

Неожиданная блокировка челюсти: влияние соматосенсорной обратной связи

Подобно слуховой обратной связи, соматосенсорная обратная связь также может сильно коактивироваться во время производства речи, например в случае неожиданной блокировки челюсти (Tourville et al. 2005).

Модель ACT

Еще одним подходом к нейровычислительному моделированию обработки речи является модель ACT, разработанная Берндом Дж. Крегером и его группой в RWTH Aachen University, Германия (Kröger et al. 2014, Kröger et al. 2009, Kröger et al. 2011). Модель ACT по большей части соответствует модели DIVA. Модель ACT фокусируется на «репозитории action » (т. Е. репозитории для сенсомоторных речевых навыков, сопоставимых с ментальным слоговым планом, см. Levelt and Wheeldon 1994), который в модели DIVA не прописано подробно. Более того, модель ACT явно вводит уровень моторных планов, то есть высокоуровневое моторное описание для производства речевых элементов (см. моторные цели, моторная кора ). Модель ACT, как и любая нейровычислительная модель, до некоторой степени остается спекулятивной.

Структура

Рис. 5: Организация модели ACT

Организация или структура модели ACT представлена ​​на рис. 5.

Для формирования речи модель ACT начинается с активации фонематическое представление речевого элемента (фонематическая карта). В случае частого слога коактивация происходит на уровне фонетической карты, что приводит к дальнейшей совместной активации предполагаемого сенсорного состояния на уровне сенсорное состояние отображается и в совместную активацию состояния моторного плана на уровне моторного плана. В случае нечастого слога, попытка моторного плана генерируется модулем моторного планирования для этого речевого элемента путем активации моторных планов для фонетически похожих речевых элементов через фонетическую карту (см. Kröger et al. 2011). План моторики или оценка действий речевого тракта содержит перекрывающиеся во времени действия речевого тракта, которые программируются и впоследствии выполняются модулем программирования, выполнения и управления мотором. Этот модуль в режиме реального времени получает информацию соматосенсорной обратной связи для контроля правильного выполнения (предполагаемого) двигательного плана. Моторное программирование приводит к паттерну активации на уровне 1 первичной моторной карты и впоследствии активирует нервно-мышечную обработку. Паттерны активации мотонейронов генерируют мышечные силы и впоследствии паттерны движений всех модельных артикуляторов (губ, языка, велум, голосовой щели). Артикуляционный синтезатор Биркхольца используется для генерации акустического речевого сигнала.

Артикуляционный и акустический сигналы обратной связи используются для генерации соматосенсорного и информация слуховой обратной связи через модули предварительной обработки сенсорной информации, которая направляется к слуховой и соматосенсорной карте. На уровне модулей сенсорно-фонетической обработки слуховая и соматосенсорная информация хранится в кратковременной памяти, а внешний сенсорный сигнал (ES, рис. 5, который активируется через петлю сенсорной обратной связи) может сравнивать с уже обученными сенсорными сигналами (TS, рис. 5, которые активируются через фонетическую карту). Сигналы слуховой и соматосенсорной ошибки могут быть сгенерированы, если внешние и намеченные (обученные) сенсорные сигналы заметно отличаются (см. Модель DIVA).

Светло-зеленая область на фиг. 5 указывает те нейронные карты и модули обработки, которые обрабатывают слог как единое целое (конкретное временное окно обработки около 100 мс и более). Эта обработка включает в себя фонетическую карту и напрямую связанные карты сенсорного состояния в сенсорно-фонетических модулях обработки и напрямую связанную карту состояния моторного плана, в то время как первичная моторная карта, а также (первичная) слуховая и (первичная) соматосенсорная карта обрабатываются меньше. временные окна (около 10 мс в модели ACT).

Рис. 6. Гипотетическое расположение областей мозга для нейронных карт модели ACT

Гипотетическое кортикальное расположение нейронных карт в модели ACT показано на рис. 6. Гипотетические местоположения первичных моторных и первичных сенсорных карты даны пурпурным цветом, гипотетические местоположения карты состояния моторного плана и карты сенсорного состояния (в модуле сенсорно-фонетической обработки, сопоставимые с картами ошибок в DIVA) показаны оранжевым цветом, а гипотетические местоположения для зеркально отраженного фонетическая карта выделена красным цветом. Двойные стрелки указывают нейронные сопоставления. Нейронные отображения соединяют нейронные карты, которые находятся недалеко друг от друга (см. Выше). Два зеркально отраженных местоположения фонетической карты связаны нейронным путем (см. Выше), что приводит к (простому) однозначному зеркальному отражению текущего паттерна активации для обеих реализаций фонетической карты. Предполагается, что этот нейронный путь между двумя точками фонетической карты является частью fasciculus arcuatus (AF, см. Рис. 5 и рис. 6).

Для восприятия речи модель начинается с внешнего акустического сигнала (например, производимого внешним динамиком). Этот сигнал предварительно обрабатывается, проходит слуховую карту и приводит к паттерну активации для каждого слога или слова на уровне модуля слухофонетической обработки (ES: внешний сигнал, см. Рис. 5). Вентральный путь восприятия речи (см. Hickok and Poeppel 2007) непосредственно активирует лексический элемент, но не реализован в ACT. Скорее, в ACT активация фонематического состояния происходит через фонематическую карту и, таким образом, может привести к коактивации моторных представлений для этого речевого элемента (то есть дорсального пути восприятия речи; там же).

Репозиторий действий

Рис. 7: Визуализация весов синаптических связей для части фонетической карты, обученной 200 наиболее частым слогам стандартного немецкого языка. Каждый прямоугольник представляет собой нейрон внутри самоорганизующейся фонетической карты. Каждое из трех представлений веса ссылок относится к одному и тому же разделу фонетической карты и, таким образом, относится к одним и тем же нейронам 10 × 10

Фонетическая карта вместе с картой состояния двигательного плана, карты сенсорных состояний (встречающиеся в сенсорно-фонетической модули обработки) и фонематическая (государственная) карта образуют репозиторий действий. Фонетическая карта реализована в ACT как самоорганизующаяся нейронная карта, и различные речевые элементы представлены разными нейронами в пределах этой карты (точечное или локальное представление, см. Выше: нейронные представления). Фонетическая карта демонстрирует три основных характеристики:

  • Более одной фонетической реализации может встречаться в пределах фонетической карты для одного фонематического состояния (см. Веса фонематических ссылок на рис. 7: например, syllable / de: m / представлен тремя нейронами на фонетической карте)
  • Фонетотопия : Фонетическая карта демонстрирует упорядочение речевых элементов по отношению к различным фонетическим характеристикам (см. веса фонематических ссылок на рис. 7. Три примера: (i) слоги / p @ /, / t @ / и / k @ / расположены в восходящем порядке слева в пределах фонетической карты; (ii) появляются слоговые начальные взрывные в левой верхней части фонетической карты, в то время как начальные фрикативы слога встречаются в нижней правой половине; (iii) слоги CV и слоги CVC также встречаются в разных областях фонетической карты.)
  • Фонетическая карта является гипермодальным или мультимодальным : активация фонетического элемента на уровне фонетической карты коактивирует (i) фонематическое состояние (см. фонематическую ссылку w восьмерки на рис.7), (ii) состояние двигательного плана (см. веса звеньев двигательного плана на рис. 7), (iii) слуховое состояние (см. веса слуховых связей на рис. 7) и (iv) соматосенсорное состояние (не показано на рис. 7). Все эти состояния изучаются или обучаются во время овладения речью путем настройки весовых коэффициентов синаптических связей между каждым нейроном в фонетической карте, представляющей конкретное фонетическое состояние и все нейроны в соответствующем двигательном плане и картах сенсорных состояний (см. Также рис. 3). 278>Фонетическая карта реализует связь действие-восприятие в модели ACT (см. Также рис. 5 и рис. 6: двойное нейронное представление фонетической карты в лобной доле и на пересечении височной доли и теменной доли ).

    Двигательные планы

    Двигательный план - это моторное описание высокого уровня для производства и артикуляции речевых элементов (см. моторные цели, моторные навыки, артикуляционная фонетика, артикуляционная фонетика ). В нашей нейровычислительной модели ACT двигательный план количественно оценивается как оценка активности голосового тракта. Оценки действий голосового тракта количественно определяют количество действий голосового тракта (также называемых артикуляционными жестами), которые необходимо активировать, чтобы произвести речевой элемент, их степень реализации и продолжительность, а также временную организацию всех действий голосового тракта. речевой элемент (подробное описание оценок действий голосового тракта см., например, в Kröger Birkholz 2007). Детальная реализация каждого действия речевого тракта (артикуляционный жест) зависит от временной организации всех действий речевого тракта, составляющих речевой элемент, и особенно от их временного перекрытия. Таким образом, детальная реализация каждого действия речевого тракта в речевом элементе определена ниже уровня моторного плана в нашей нейровычислительной модели ACT (см. Kröger et al. 2011).

    Интеграция сенсомоторных и когнитивных аспектов: сочетание действия репозиторий и ментальный лексикон

    Серьезная проблема фонетических или сенсомоторных моделей обработки речи (таких как DIVA или ACT) заключается в том, что не моделируется развитие фонематической карты во время приобретения речи. Возможным решением этой проблемы может быть прямое соединение репозитория действий и ментального лексикона без явного введения фонематической карты в начале усвоения речи (даже в начале обучения имитации; см. Kröger et al., 2011 PALADYN Journal of Behavioral Robotics).

    Эксперименты: овладение речью

    Очень важным вопросом для всех нейробиологических или нейрокомпьютерных подходов является разделение структуры и знания. В то время как структура модели (т.е. нейронная сеть человека, которая необходима для обработки речи) в основном определяется эволюционными процессами, знания собираются в основном во время усвоения речи процессами обучения. Были проведены различные обучающие эксперименты с моделью ACT, чтобы изучить (i) систему из пяти гласных / i, e, a, o, u / (см. Kröger et al. 2009), (ii) небольшую систему согласных ( звонкие взрывные / b, d, g / в сочетании со всеми пятью гласными, приобретенными ранее как слоги CV (там же), (iii) небольшой модельный язык, включающий систему из пяти гласных, звонкие и глухие взрывные / b, d, g, p, t, k /, носовые / m, n / и латеральный / l / и три типа слогов (V, CV и CCV) (см. Kröger et al.2011) и (iv) 200 наиболее часто встречающихся слогов стандартного Немецкий язык для 6-летнего ребенка (см. Kröger et al. 2011). Во всех случаях можно наблюдать упорядочение фонетических элементов по различным фонетическим характеристикам.

    Эксперименты: восприятие речи

    Несмотря на то, что модель ACT в своих более ранних версиях была разработана как модель чисто речевого производства (включая приобретение речи), модель способна демонстрировать важные базовые явления восприятия речи, т.е. l восприятие и эффект Мак-Герка. В случае категориального восприятия модель может продемонстрировать, что категориальное восприятие сильнее в случае взрывных звуков, чем в случае гласных (см. Kröger et al. 2009). Кроме того, модель ACT могла демонстрировать эффект Мак-Гурка, если был реализован конкретный механизм ингибирования нейронов уровня фонетической карты (см. Kröger and Kannampuzha 2008).

    См. Также
    На Викискладе есть материалы, относящиеся к Нейрокомпьютерной обработке речи.
    Ссылки
    Дополнительная литература
Последняя правка сделана 2021-05-31 05:07:38
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте