Тип сайта | исследовательский / образовательный проект |
---|---|
Доступен на | английском / русском / татарском |
Год основания | 2011; 9 лет назад (2011) |
Головной офис | Казань, Россия |
Учредитель (и) | Сайхунов М.Р., Ибрагимов Т.И., Хусаинов Р.Р. |
URL | корпус.tatar / ru |
Запущен | 15 марта 2012 г.; 8 лет назад (2012-03-15) |
Текущее состояние | Проект активно развивается. |
Corpus of Written Tatar (Tatar Corpus) - электронный корпус татарского языка, размещенного в Интернете. Сборник татарских текстов в электронном виде предназначен для тех, кто интересуется строением, нынешним состоянием и перспективами татарского языка. Корпус письменного татарского языка незаменим для всех, кто хочет изучать татарский язык методами корпусной лингвистики.. Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar.. Доступен на татарском, русском и английском языках.
Объем Корпуса татарского языка на конец 2014 года составляет более 116 млн слов. Количество предложений - 10 млн, количество разных словоформ - около 1,5 млн.. Чтобы предотвратить копирование, тексты хранятся в Корпусе как смешанные предложения.
Доступ к Татарскому корпусу для исследовательских целей бесплатный.
Создание Корпуса татарского языка было инициировано в 2010 году группой энтузиастов. Задача считалась актуальной, так как она обеспечила бы необходимую базу данных текстов для работы над системами машинного перевода на татарский язык, а также была незаменима при решении задач синтеза и распознавания татарской речи.
Основная цель Корпуса письменного татарского языка - оказание помощи в исследовании татарской лексики. Кроме того, корпус можно использовать при изучении языка и в качестве источника моделей для различных типов документов.. Корпус письменного татарского языка позволяет пользователю выполнять поиск слов по определенным признакам, видеть слова в их контексте, а также предоставляет пользователю данные о частоте.
Этот тип поиска позволяет видеть правый, левый и семантический контексты определенного слова, отсортированные по частоте.. Правый контекст - слова, помещенные сразу после текущего слова.. Левый контекст - слова, помещенные непосредственно перед текущим словом.. Семантический контекст - слова, находящиеся в одном предложении с текущим словом, т.е. между словами существует какая-то подразумеваемая семантическая связь.
В 2014 году была проведена морфологическая маркировка Татарского корпуса. В основе метаязыка грамматических надписей лежит система тегов для тюркских языков, разработанная международным проектом Apertium. Этот проект направлен на разработку системы автоматического перевода для большого количества языков. Основными аргументами в пользу выбора морфологического теггера Apertium для маркировки корпуса являются:. - высокое качество морфологической аннотации;. - это проект с открытым исходным кодом: весь исходный код и данные общедоступны для всех бесплатно.. Разработанная нами в 2015-2016 гг. Система комплексного морфологического поиска позволяет производить поиск в Корпусе по различным комбинациям таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало слова, средняя часть, конец слова и расстояние между искомыми словами. Максимальная длина поискового запроса - пять токенов + соответственно четыре расстояния между ними.
Корпус письменного татарского языка предлагает пользователю уникальную возможность прослушать предложения, найденные в поиске, а также прослушать любой другой текст, вводимый пользователем об этом объекте см. http://search.corpus.tatar/search/sintez_en.html.
Создатели Корпуса татарского языка загружают различные дополнительные статистические данные, как только они становятся доступными в результате обработки Корпуса, см. http://corpus.tatar/stat_en.htm.
Создатели корпуса:
При содействии: