Persian Speech Corpus - это Современный персидский речевой корпус для синтеза речи. Корпус содержит фонетические и орфографические транскрипции около 2,5 часов персидской речи, согласованные с записанной речью на уровне фонем, включая аннотации границ слов. Предыдущие устные корпуса персидского языка включают FARSDAT, который состоит из чтения вслух газетных текстов от 100 носителей персидского языка, и базу данных телефонной FARsi Speken language DATabase (TFARSDAT), которая включает семь часов чтения и спонтанную речь, составленную 60 носителями персидского языка из десяти регионов. of Иран.
Корпус персидской речи был построен с использованием тех же методологий, которые были изложены в докторском проекте по современному стандартному арабскому языку Навара Халаби в Университете Саутгемптона. Работа финансировалась MicroLinkPC, которому принадлежит эксклюзивная лицензия на коммерциализацию корпуса, хотя корпус доступен для некоммерческого использования через веб-сайт корпуса. Он распространяется под международной лицензией Creative Commons Attribution-NonCommercial-ShareAlike 4.0.
Корпус был создан для целей синтеза речи, но использовался для построения голосов на основе HMM на персидском языке. Его также можно использовать для автоматического согласования других речевых корпусов с их фонетической расшифровкой и можно использовать как часть более крупного корпуса для обучения систем распознавания речи.
Корпус можно загрузить с его веб-сайта и содержит следующее: