Хорватский национальный корпус

редактировать

Хорватский национальный корпус (Хорватский : Hrvatski nacionalni korpus, HNK) является самым большим и важнейший корпус из хорватского языка. Его составление началось в 1998 г. в Институте лингвистики факультета гуманитарных и социальных наук Загребского университета, следуя идеям Марко Тадича. Теоретические основы и выражение потребности в универсальном, представительном и многомиллионном корпусе хорватского языка начали появляться еще раньше. Хорватский национальный корпус составлен из избранных текстов, написанных на хорватском языке, охватывающих все области, темы, жанры и стили: от литературных и научных текстов до учебников, газет, групп пользователей и чатов.

Первоначальный состав был разделен на две составляющие:

  1. 30-миллионный корпус современного хорватского языка (30м), в который были включены образцы текстов с 1990 года. Критериями включения образцов текста были: написаны носителями языка, разные области, жанры и темы. Переведенный текст или стихи были исключены.
  2. Хорватский электронный текстовый архив (HETA), в который был включен полный текст, в частности, серийные публикации (тома, серии, издания и т. Д.), Которые нарушили бы баланс 30 метров, если бы они туда были помещены.

С 2004 года, с принятием концепции корпуса 3-го поколения, от двухкомпонентной структуры отказались в пользу нескольких подкорпусов и большего размера. С 2005 года 105 миллионов токенов HNK состоит из множества различных подкорпораций, которые можно искать по отдельности и все вместе в одном корпусе. С 2004 года HNK также перешла на новую серверную платформу, а именно сервер-клиентскую архитектуру Manatee / Bonito. Для поиска в HNK (сегодня все еще с бесплатным тестовым доступом) необходима бесплатная клиентская программа Bonito. Автором этого руководящего корпуса является Павел Рыхлы из Лаборатории обработки естественного языка факультета информатики Университета Масарика в Брно, Чешская Республика. Его интерфейс включает сложные и более сложные запросы по корпусу, различные типы статистических результатов, полные или частичные списки слов в соответствии с различными критериями запроса (с их частотой), частотное распределение типов, автоматическое определение словосочетания и т. Д.

последняя версия этого корпуса (версия 3) имеет 216,8 миллиона токенов. Онлайн-поиск доступен через поиск в веб-интерфейсе Bonito 2, который является частью NoSketch Engine, ограниченной версии программного обеспечения Sketch Engine.

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-16 09:18:45
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте