Persian Speech Corpus

редактировать

Persian Speech Corpus - это Современный персидский речевой корпус для синтеза речи. Корпус содержит фонетические и орфографические транскрипции около 2,5 часов персидской речи, согласованные с записанной речью на уровне фонем, включая аннотации границ слов. Предыдущие устные корпуса персидского языка включают FARSDAT, который состоит из чтения вслух газетных текстов от 100 носителей персидского языка, и базу данных телефонной FARsi Speken language DATabase (TFARSDAT), которая включает семь часов чтения и спонтанную речь, составленную 60 носителями персидского языка из десяти регионов. of Иран.

Корпус персидской речи был построен с использованием тех же методологий, которые были изложены в докторском проекте по современному стандартному арабскому языку Навара Халаби в Университете Саутгемптона. Работа финансировалась MicroLinkPC, которому принадлежит эксклюзивная лицензия на коммерциализацию корпуса, хотя корпус доступен для некоммерческого использования через веб-сайт корпуса. Он распространяется под международной лицензией Creative Commons Attribution-NonCommercial-ShareAlike 4.0.

Корпус был создан для целей синтеза речи, но использовался для построения голосов на основе HMM на персидском языке. Его также можно использовать для автоматического согласования других речевых корпусов с их фонетической расшифровкой и можно использовать как часть более крупного корпуса для обучения систем распознавания речи.

Содержание

1 Содержание
2 См. Также
3 Ссылки
4 Внешние ссылки

Содержание

Корпус можно загрузить с его веб-сайта и содержит следующее:

396 файлов.wav, содержащих речевые высказывания
396 файлов.lab содержащие текстовые высказывания
396 файлов.TextGrid, содержащих метки фонем с отметками времени границ, где они встречаются в файлах.wav. Эти файлы можно открыть с помощью программного обеспечения Praat
phonetic-transcript.txt, который имеет форму «[wav_filename]» «[Phoneme Sequence]» в каждой строке
orthographic-transcript.txt, имеющей форма «[wav_filename]» «[Orthographic Transcript]» в каждой строке

См. также

Сравнение наборов данных в машинном обучении

Ссылки

Внешние ссылки