Корпус письменного татарского языка

редактировать
Корпус Письменный татарский
Результаты сложного морфологического поиска.jpg
Тип сайтаисследовательский / образовательный проект
Доступен наанглийском / русском / татарском
Год основания2011; 9 лет назад (2011)
Головной офисКазань, Россия
Учредитель (и) Сайхунов М.Р., Ибрагимов Т.И., Хусаинов Р.Р.
URLкорпус.tatar / ru
Запущен15 марта 2012 г.; 8 лет назад (2012-03-15)
Текущее состояниеПроект активно развивается.

Corpus of Written Tatar (Tatar Corpus) - электронный корпус татарского языка, размещенного в Интернете. Сборник татарских текстов в электронном виде предназначен для тех, кто интересуется строением, нынешним состоянием и перспективами татарского языка. Корпус письменного татарского языка незаменим для всех, кто хочет изучать татарский язык методами корпусной лингвистики.. Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar.. Доступен на татарском, русском и английском языках.

Содержание
  • 1 Размер корпуса
  • 2 Доступ
  • 3 О процессе создания корпуса
  • 4 Практическая ценность и области использования
  • 5 Контекстный (статистический) корпус
  • 6 Сложный морфологический поиск
  • 7 Синтез татарской речи
  • 8 Статистические данные
  • 9 Недостатки и перспективы
  • 10 Авторы
  • 11 Литература
  • 12 Список литературы
  • 13 Внешние ссылки
Размер корпуса

Объем Корпуса татарского языка на конец 2014 года составляет более 116 млн слов. Количество предложений - 10 млн, количество разных словоформ - около 1,5 млн.. Чтобы предотвратить копирование, тексты хранятся в Корпусе как смешанные предложения.

Доступ

Доступ к Татарскому корпусу для исследовательских целей бесплатный.

О процессе создания Корпуса

Создание Корпуса татарского языка было инициировано в 2010 году группой энтузиастов. Задача считалась актуальной, так как она обеспечила бы необходимую базу данных текстов для работы над системами машинного перевода на татарский язык, а также была незаменима при решении задач синтеза и распознавания татарской речи.

Практическая ценность и области использования

Основная цель Корпуса письменного татарского языка - оказание помощи в исследовании татарской лексики. Кроме того, корпус можно использовать при изучении языка и в качестве источника моделей для различных типов документов.. Корпус письменного татарского языка позволяет пользователю выполнять поиск слов по определенным признакам, видеть слова в их контексте, а также предоставляет пользователю данные о частоте.

Контекстный (статистический) корпус

Этот тип поиска позволяет видеть правый, левый и семантический контексты определенного слова, отсортированные по частоте.. Правый контекст - слова, помещенные сразу после текущего слова.. Левый контекст - слова, помещенные непосредственно перед текущим словом.. Семантический контекст - слова, находящиеся в одном предложении с текущим словом, т.е. между словами существует какая-то подразумеваемая семантическая связь.

Комплексный морфологический поиск

В 2014 году была проведена морфологическая маркировка Татарского корпуса. В основе метаязыка грамматических надписей лежит система тегов для тюркских языков, разработанная международным проектом Apertium. Этот проект направлен на разработку системы автоматического перевода для большого количества языков. Основными аргументами в пользу выбора морфологического теггера Apertium для маркировки корпуса являются:. - высокое качество морфологической аннотации;. - это проект с открытым исходным кодом: весь исходный код и данные общедоступны для всех бесплатно.. Разработанная нами в 2015-2016 гг. Система комплексного морфологического поиска позволяет производить поиск в Корпусе по различным комбинациям таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало слова, средняя часть, конец слова и расстояние между искомыми словами. Максимальная длина поискового запроса - пять токенов + соответственно четыре расстояния между ними.

Татарский Синтез речи

Корпус письменного татарского языка предлагает пользователю уникальную возможность прослушать предложения, найденные в поиске, а также прослушать любой другой текст, вводимый пользователем об этом объекте см. http://search.corpus.tatar/search/sintez_en.html.

Статистические данные

Создатели Корпуса татарского языка загружают различные дополнительные статистические данные, как только они становятся доступными в результате обработки Корпуса, см. http://corpus.tatar/stat_en.htm.

Недостатки и перспективы
  • Отсутствие автономной версии корпуса.
  • Автоматическое устранение неоднозначности.
Авторы

Создатели корпуса:

  • Сайхунов М.Р. (кандидат филологических наук, научный сотрудник Института информатики)
  • Ибрагимов Т.И. (Кандидат филологических наук, доцент кафедры прикладной лингвистики Казанского федерального университета)
  • Хусаинов Р.Р. (инженер, «ГДК»)

При содействии:

  • Республиканский центр развития традиционных Культура
  • Исследовательский отдел волжских языков Университета Турку (Финляндия)
  • Компания «RX5»
  • Редакция научно-популярного журнала «Фән һәм Тел»
Литература
Список литературы
Внешние ссылки
Последняя правка сделана 2021-05-15 13:06:15
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте