Корпус письменного татарского языка

редактировать

Корпус Письменный татарский

Тип сайта	исследовательский / образовательный проект
Доступен на	английском / русском / татарском
Год основания	2011; 9 лет назад (2011)
Головной офис	Казань, Россия
Учредитель (и)	Сайхунов М.Р., Ибрагимов Т.И., Хусаинов Р.Р.
URL	корпус.tatar / ru
Запущен	15 марта 2012 г.; 8 лет назад (2012-03-15)
Текущее состояние	Проект активно развивается.

Corpus of Written Tatar (Tatar Corpus) - электронный корпус татарского языка, размещенного в Интернете. Сборник татарских текстов в электронном виде предназначен для тех, кто интересуется строением, нынешним состоянием и перспективами татарского языка. Корпус письменного татарского языка незаменим для всех, кто хочет изучать татарский язык методами корпусной лингвистики.. Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar.. Доступен на татарском, русском и английском языках.

Содержание

1 Размер корпуса
2 Доступ
3 О процессе создания корпуса
4 Практическая ценность и области использования
5 Контекстный (статистический) корпус
6 Сложный морфологический поиск
7 Синтез татарской речи
8 Статистические данные
9 Недостатки и перспективы
10 Авторы
11 Литература
12 Список литературы
13 Внешние ссылки

Размер корпуса

Объем Корпуса татарского языка на конец 2014 года составляет более 116 млн слов. Количество предложений - 10 млн, количество разных словоформ - около 1,5 млн.. Чтобы предотвратить копирование, тексты хранятся в Корпусе как смешанные предложения.

Доступ

Доступ к Татарскому корпусу для исследовательских целей бесплатный.

О процессе создания Корпуса

Создание Корпуса татарского языка было инициировано в 2010 году группой энтузиастов. Задача считалась актуальной, так как она обеспечила бы необходимую базу данных текстов для работы над системами машинного перевода на татарский язык, а также была незаменима при решении задач синтеза и распознавания татарской речи.

Практическая ценность и области использования

Основная цель Корпуса письменного татарского языка - оказание помощи в исследовании татарской лексики. Кроме того, корпус можно использовать при изучении языка и в качестве источника моделей для различных типов документов.. Корпус письменного татарского языка позволяет пользователю выполнять поиск слов по определенным признакам, видеть слова в их контексте, а также предоставляет пользователю данные о частоте.

Контекстный (статистический) корпус

Этот тип поиска позволяет видеть правый, левый и семантический контексты определенного слова, отсортированные по частоте.. Правый контекст - слова, помещенные сразу после текущего слова.. Левый контекст - слова, помещенные непосредственно перед текущим словом.. Семантический контекст - слова, находящиеся в одном предложении с текущим словом, т.е. между словами существует какая-то подразумеваемая семантическая связь.

Комплексный морфологический поиск

В 2014 году была проведена морфологическая маркировка Татарского корпуса. В основе метаязыка грамматических надписей лежит система тегов для тюркских языков, разработанная международным проектом Apertium. Этот проект направлен на разработку системы автоматического перевода для большого количества языков. Основными аргументами в пользу выбора морфологического теггера Apertium для маркировки корпуса являются:. - высокое качество морфологической аннотации;. - это проект с открытым исходным кодом: весь исходный код и данные общедоступны для всех бесплатно.. Разработанная нами в 2015-2016 гг. Система комплексного морфологического поиска позволяет производить поиск в Корпусе по различным комбинациям таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало слова, средняя часть, конец слова и расстояние между искомыми словами. Максимальная длина поискового запроса - пять токенов + соответственно четыре расстояния между ними.

Татарский Синтез речи

Корпус письменного татарского языка предлагает пользователю уникальную возможность прослушать предложения, найденные в поиске, а также прослушать любой другой текст, вводимый пользователем об этом объекте см. http://search.corpus.tatar/search/sintez_en.html.

Статистические данные

Создатели Корпуса татарского языка загружают различные дополнительные статистические данные, как только они становятся доступными в результате обработки Корпуса, см. http://corpus.tatar/stat_en.htm.

Недостатки и перспективы

Отсутствие автономной версии корпуса.
Автоматическое устранение неоднозначности.

Авторы

Создатели корпуса:

Сайхунов М.Р. (кандидат филологических наук, научный сотрудник Института информатики)
Ибрагимов Т.И. (Кандидат филологических наук, доцент кафедры прикладной лингвистики Казанского федерального университета)
Хусаинов Р.Р. (инженер, «ГДК»)

При содействии:

Республиканский центр развития традиционных Культура
Исследовательский отдел волжских языков Университета Турку (Финляндия)
Компания «RX5»
Редакция научно-популярного журнала «Фән һәм Тел»

Литература

Список литературы

Внешние ссылки

Корпус письменного татарского языка (Корпус татарского языка) - Официальный сайт

Последняя правка сделана 2021-05-15 13:06:15

Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).

Обратная связь: support@alphapedia.ru

Соглашение

О проекте