Артикуляционный синтез

редактировать

Файл: Modeling-Consonant-Vowel-Coarticulation-for-Articulatory-Speech-Synthesis-pone.0060603.s008.ogv

Play media Трехмерная модель голосового тракта для артикуляционного синтеза На основе моделирования коартикуляции согласных и гласных, немецкое предложение «Lea und Doreen mögen Bananen». был воспроизведен из естественно произнесенного предложения с точки зрения основной частоты и длительности разговора.

Артикуляционный синтез относится к вычислительным методам синтеза речи на основе моделей человеческого голосового тракта и происходящие там артикуляционные процессы. Формой речевого тракта можно управлять несколькими способами, которые обычно включают изменение положения речевых артикуляторов, таких как язык, челюсть и губы. Речь создается путем цифрового моделирования потока воздуха через голосовой тракт.

Содержание

1 Механические говорящие головы
2 Электрические аналоги речевого тракта
3 Модели Haskins и Maeda
4 Современные модели
5 Коммерческие модели
6 См. Также
7 Сноски
8 Библиография
9 Внешние ссылки

Механические говорящие головы

Существует долгая история попыток создания механических «говорящих голов ».. Герберт (ум. 1003), Альберт Магнус (1198–1280) и Роджер Бэкон (1214–1294), как говорят, построили говорящие головы ( Уитстон 1837). Однако исторически подтвержденный синтез речи начинается с Вольфганга фон Кемпелена (1734–1804), который опубликовал отчет о своем исследовании в 1791 году (см. Также Dudley Tarnoczy 1950).

Электрические аналоги речевого тракта

Первые электрические аналоги речевого тракта были статичными, как у Данна (1950), Кена Стивенса и его коллег (1953), Гуннар Фант (1960). Розен (1958) построил динамический речевой тракт (DAVO), которым Деннис (1963) позже попытался управлять с помощью компьютера. Деннис и др. (1964), Hiki et al. (1968) и Baxter and Strong (1969) также описали аппаратные аналоги голосового тракта. Келли и Лохбаум (1962) провели первое компьютерное моделирование; позже было выполнено цифровое компьютерное моделирование, например Наката и Мицуока (1965), Мацуи (1968) и Пол Мермельштейн (1971). Honda et al. (1968) выполнили аналоговую компьютерную симуляцию.

Модели Хаскинса и Маэда

Первый программный артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в Haskins Laboratories в середине 1970-х годов Филипом Рубином, Том Бэр и Пол Мермельштейн. Этот синтезатор, известный как ASY, представлял собой вычислительную модель формирования речи, основанную на моделях речевого тракта, разработанных в Bell Laboratories в 1960-х и 1970-х годах Полом Мермельштейном, Сесилом Кокером и его коллегами. Еще одна популярная модель, которая часто использовалась, - это модель Синдзи Маэда, которая использует факторный подход для управления формой языка.

Современные модели

Недавний прогресс в визуализации речевой продукции, моделировании артикуляционного контроля и моделировании биомеханики языка привел к изменениям в способах выполнения артикуляционного синтеза [1]. Примеры включают модель Haskins CASY (конфигурируемый артикуляционный синтез), разработанную Филипом Рубином, Марком Тидом [2] и Луи Голдштейном [3], которая соответствует среднесагиттальные голосовые тракты к фактическим данным магнитно-резонансной томографии (МРТ) и используют данные МРТ для построения трехмерной модели речевого тракта. Полная трехмерная модель артикуляционного синтеза была описана Оловом Энгваллом. Трехмерный синтезатор артикуляционной речи на геометрической основе был разработан Питером Биркхольцем (VocalTractLab). Модель Directions Into Velocities of Articulators (DIVA), подход к управлению с прямой связью, который учитывает нейронные вычисления, лежащие в основе производства речи, был разработан Фрэнком Х. Гюнтером в Бостоне. Университет. Проект ArtiSynth, возглавляемый Сидни Фелсом [4] из Университета Британской Колумбии, представляет собой набор инструментов для трехмерного биомеханического моделирования голосового тракта человека и верхних дыхательных путей. Биомеханическое моделирование артикуляторов, таких как язык, было впервые предложено рядом ученых, включая Райнера Вильгельмса-Трикарико [5], Йохана Паяна [6] и Жан-Мишель Жерар [7], Цзяньву Данг и Киёси Хонда [8].

Коммерческие модели

Одной из немногих коммерческих систем синтеза артикуляционной речи является Система на основе NeXT, первоначально разработанная и проданная Trillium Sound Research, дочерней компанией Университета Калгари, где проводилась большая часть оригинальных исследований. После прекращения существования различных воплощений NeXT (начатого Стивом Джобсом в конце 1980-х и слияния с Apple Computer в 1997 году) было опубликовано программное обеспечение Trillium под Стандартной общественной лицензией GNU, при этом работа продолжается как gnuspeech. Система, впервые поступившая на рынок в 1994 году, обеспечивает полное преобразование текста в речь на основе артикуляции с использованием волновода или аналога линии передачи орального и носового трактов человека, контролируемого «моделью отличительных регионов» Рене Карре.

См. Также

Сноски

Библиография

Бакстер, Брент и Уильям Дж. Стронг. (1969). WINDBAG - аналоговый синтезатор речи голосового тракта. Журнал акустического общества Америки, 45, 309 (A).
Birkholz P, Jackel D, Kröger BJ (2007) Моделирование потерь из-за турбулентности в изменяющемся во времени вокале система. IEEE Transactions по обработке звука, речи и языка 15: 1218-1225
Birkholz P, Jackel D, Kröger BJ (2006) Построение и управление трехмерной моделью речевого тракта. Труды Международной конференции по акустике, речи и обработке сигналов (ICASSP 2006) (Тулуза, Франция) стр. 873–876
Coker. К. Х. (1968). Синтез речи с параметрической артикуляционной моделью. Proc. Речь. Symp., Киото, Япония, статья A-4.
Coker, C.H. (1976). «Модель артикуляционной динамики и контроля». Труды IEEE. 64 (4): 452–460. doi : 10.1109 / PROC.1976.10154.
коксование; Фудзимура, О. (1966). «Модель для уточнения функции области голосового тракта». Журнал Акустического общества Америки. 40 (5): 1271. Bibcode : 1966ASAJ... 40.1271C. doi : 10.1121 / 1.2143456.
Деннис, Джек Б. (1963). Компьютерное управление аналоговым речевым трактом. Журнал Акустического общества Америки, 35, 1115 (A).
Дадли, Гомер; Тарноци, Томас Х. (1950). «Говорящая машина Вольфганга фон Кемпелена». Журнал Акустического общества Америки. 22 (2): 151–66. Bibcode : 1950ASAJ... 22..151D. doi : 10.1121 / 1.1906583. CS1 maint: ref = harv (ссылка )
Данн, Хью К. (1950). «Расчет резонансов гласных, и электрический речевой тракт ". Журнал акустического общества Америки. 22 (6): 740–53. Bibcode : 1950ASAJ... 22..740D. doi : 10.1121 / 1.1906681.
Engwall, O. (2003). Объединение измерений MRI, EMA и EPG в трехмерной модели языка. Speech Communication, 41, 303- 329.
Фант, К. Гуннар М. (1960). Акустическая теория речевого образования. Гаага, Мутон.
Гариэль, М. (1879). "Machine parlante de M. Faber ". J. Physique Théorique et Appliquée. 8 : 274–5. doi : 10.1051 / jphystap: 018790080027401.
Джерард, Дж. М.; Вильгельмс- Tricarico, R.; Perrier, P.; Payan, Y. (2003). «Трехмерная динамическая биомеханическая модель языка для изучения речевого моторного контроля». Недавние исследования в области биомеханики. 1 : 49–64.
Хенке, У.Л. (1966). Динамическая артикуляционная модель производства речи с использованием g Компьютерное моделирование. Неопубликованная докторская диссертация, Массачусетский технологический институт, Кембридж, Массачусетс.
Хонда, Такаши, Сэйити Иноуэ и Ясуо Огава. (1968). Гибридная система управления имитатором голосового тракта человека. Доклады 6-го Международного конгресса по акустике / под ред. Я. Кохаси, стр. 175–8. Токио, Международный совет научных союзов.
Келли, Джон Л. и Кэрол Лохбаум. (1962). Синтез речи. Труды семинара по речевой коммуникации, статья F7. Стокгольм, Лаборатория передачи речи, Королевский технологический институт.
Кемпелен, Вольфганг Р. Фон. (1791). Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine. Wien, J. B. Degen.
Maeda, S. (1988). Улучшенная артикуляторная модель. Журнал Американского акустического общества, 84, Sup. 1, S146.
Маэда, С. (1990). Компенсаторная артикуляция во время речи: данные анализа и синтеза форм голосового тракта с использованием артикуляционной модели. В У. Дж. Хардкасл и А. Маршал (ред.), Производство речи и моделирование речи, Kluwer Academic, Dordrecht, 131–149.
Мацуи, Эйичи. (1968). Органы голоса, смоделированные на компьютере. Доклады 6-го Международного конгресса по акустике / под ред. Я. Кохаси, стр. 151–4. Токио, Международный совет научных союзов.
Мермельштейн, Пол. (1969). Компьютерное моделирование артикуляционной деятельности при производстве речи. Труды Международной совместной конференции по искусственному интеллекту, Вашингтон, округ Колумбия, 1969, изд. Д. Э. Уокером и Л. М. Нортоном. Нью-Йорк, Gordon Breach.
Мермельштейн, П. (1973). «Артикуляторная модель для изучения речевого производства». Журнал Акустического общества Америки. 53 (4): 1070–1082. Bibcode : 1973ASAJ... 53.1070M. doi : 10.1121 / 1.1913427. PMID 4697807.
Наката, Кадзуо; Мицуока, Т. (1965). «Фонематические преобразования и управляющие аспекты синтеза связной речи». J. Radio Res. Labs. 12 : 171–86.
Rahim, M.; Goodyear, C.; Kleijn, W.; Schroeter, J.; Сонди, М. (1993). «Об использовании нейронных сетей в артикуляционном синтезе речи». Журнал Акустического общества Америки. 93 (2): 1109–1121. Bibcode : 1993ASAJ... 93.1109R. doi : 10.1121 / 1.405559.
Розен, Джордж (1958). «Динамический аналоговый синтезатор речи». Журнал Акустического общества Америки. 30 (3): 201–9. Bibcode : 1958ASAJ... 30..201R. doi : 10.1121 / 1.1909541. hdl : 1721.1 / 118106.
Rubin, P.E.; Baer, T.; Мермельштейн, П. (1981). «Артикуляционный синтезатор для исследования восприятия». Журнал Акустического общества Америки. 70 (2): 321–328. Bibcode : 1981ASAJ... 70..321R. doi : 10.1121 / 1.386780.
Рубин, П., Зальцман, Э., Голдштейн, Л., Макгоуэн, Р., Тиде, М., и Бровман, К. (1996). CASY и расширения к динамической модели задач. Труды 1-го учебного и исследовательского семинара ESCA по моделированию речи - 4-й семинар по производству речи, 125–128.
Stevens, Kenneth N.; Kasowski, S.; Фант, К. Гуннар М. (1953). «Электрический аналог голосового тракта». Журнал Акустического общества Америки. 25 (4): 734–42. Bibcode : 1953ASAJ... 25..734S. doi : 10.1121 / 1.1907169.

Внешние ссылки

«От МРТ и акустических данных к артикуляционному синтезу».. Архивировано из оригинала 14 августа 2007 года.
Praat
«Смитсоновский проект истории синтеза речи (SSSHP) 1986-2002».. Архивировано из оригинала 3 октября 2013 года.
Введение в синтез артикуляционной речи
Имитация пения с помощью поющего робота Павароботти или описание из BBC на как робот синтезировал пение.
Pink Trombone - онлайн-инструмент для синтеза речи голыми руками Демонстрационный видеоклип