Синтез китайской речи

редактировать

Синтез китайской речи - это приложение синтеза речи на китайский язык (обычно стандартный китайский ). Это создает дополнительные трудности из-за китайских иероглифов (которые часто имеют разное произношение в разных контекстах), сложной просодии, которая необходима для передачи значения слов, а иногда и трудностей в достижении согласия между носителями языка относительно правильного произношения некоторых фонем.

Содержание

1 Конкатенация (Ekho и KeyTip)
2 Легкие синтезаторы (eSpeak и Yuet)
3 На основе Корпуса
- 3.1 iFlyTek
- 3.2 NeoSpeech
- 3.3 Mac OS
- 3.4 Исторические корпусные синтезаторы (больше не доступны)
4 Ссылки

Конкатенация (Эхо и KeyTip)

Записи могут быть объединены в любой желаемой комбинации, но объединение звучит принудительно (как обычно для простого синтеза речи на основе объединения ), и это может серьезно повлиять на просодию; эти синтезаторы также негибки с точки зрения скорости и экспрессии. Однако, поскольку эти синтезаторы не полагаются на корпус, не происходит заметного ухудшения производительности, когда им дают более необычные или неудобные фразы.

Эхо - это TTS с открытым исходным кодом, которая просто объединяет выбранные слоги. В настоящее время он поддерживает кантонский, мандаринский и экспериментально корейский. Некоторые слоги мандаринского языка были нормализованы по тональной схеме в Praat. Их модифицированная версия используется в Gradint «Синтез из частичных элементов».

cjkware.com использовался для доставки продукта под названием KeyTip Putonghua Reader, который работал аналогично; он содержал 120 мегабайт звукозаписей (сжатых в стандарте GSM до 40 мегабайт в ознакомительной версии), состоящих из 10 000 многосложных словарных слов плюс односложные записи в 6 различных текстах (4 тона, нейтральный тон и дополнительная запись в третьем тоне) для использования в конце фразы).

Легкие синтезаторы (eSpeak и Yuet)

Легкий речевой проект с открытым исходным кодом eSpeak, который имеет собственный подход к синтезу, экспериментировал с мандаринским и кантонским диалектами. eSpeak использовался Google Translate с мая 2010 года по декабрь 2010 года.

Коммерческий продукт Yuet также является легковесным (он предназначен для использования в средах с ограниченными ресурсами, таких как встроенные системы ); он был написан с нуля на ANSI C, начиная с 2013 года. Юет утверждает, что встроенная модель NLP не требует отдельного словаря; речь, синтезируемая движком, требует четких границ слов и акцента на соответствующих словах. Для получения копии необходимо связаться с автором.

И eSpeak, и Yuet могут синтезировать речь для кантонского и мандаринского языков из одного и того же входного текста и могут выводить соответствующую латинизацию (для кантонского диалекта Yuet использует Yale и eSpeak используют Jyutping ; оба используют Pinyin для китайского). eSpeak не заботится о границах слов, если они не меняют вопрос о том, какой слог следует произносить.

Основанный на корпусе

Подход, основанный на корпусе, в большинстве случаев может звучать очень естественно, но может давать ошибки при работе с необычными фразами, если они не могут быть сопоставлены с корпусом. Механизм синтезатора обычно очень большой (сотни или даже тысячи мегабайт) из-за размера корпуса.

iFlyTek

Anhui USTC iFlyTek Co., Ltd (iFlyTek) опубликовала статью W3C, в которой они адаптировали язык разметки синтеза речи для создания язык разметки, называемый китайским языком разметки синтеза речи (CSSML), который может включать дополнительную разметку для уточнения произношения символов и добавления некоторой просодической информации. IFlyTek не раскрывает объем задействованных данных, но его можно увидеть по коммерческим продуктам, для которых iFlyTek лицензировала свою технологию; например, SpeechPlus Байдера - это загрузка 1,3 гигабайта, из которых 1,2 гигабайта используются для сильно сжатых данных для одного китайского голоса. Синтезатор iFlyTek также может синтезировать смешанный китайский и английский текст с одним и тем же голосом (например, китайские предложения, содержащие некоторые английские слова); они утверждают, что их английский синтез "средний".

Корпус iFlyTek, по всей видимости, сильно зависит от китайских иероглифов, и невозможно синтезировать только из пиньинь. Иногда с помощью CSSML можно добавить пиньинь к символам, чтобы устранить неоднозначность между несколькими возможными вариантами произношения, но это не всегда работает.

NeoSpeech

Существует интерактивная онлайн-демонстрация синтеза речи NeoSpeech, которая принимает китайские иероглифы, а также пиньинь, если он заключен в их собственный " Разметка VTML ".

Mac OS

Mac OS имела синтезаторы китайской речи, доступные до версии 9. Это было удалено в 10.0 и восстановлено в 10.7 (Lion).

Исторически Корпоративные синтезаторы (больше не доступны)

Корпоративный подход был применен Университетом Цинхуа в SinoSonic, с харбинским диалектом голосовые данные, занимающие 800 мегабайт. Планировалось, что его можно будет загрузить, но ссылка так и не была активирована. В настоящее время ссылки на него можно найти только в Internet Archive.

. Подход Bell Labs, который был продемонстрирован в Интернете в 1997 году, но впоследствии удален, был описан в монографии «Multilingual Text-to-Speech Synthesis: The Bell Labs» Подход »(Springer, 31 октября 1997 г., ISBN 978-0-7923-8027-6 ), и бывший сотрудник, ответственный за проект, Чилин Ших (впоследствии работала в Университете Иллинойса) разместила несколько заметок о своих методах на своем веб-сайте.

Ссылки