Хорватский национальный корпус (Хорватский : Hrvatski nacionalni korpus, HNK) является самым большим и важнейший корпус из хорватского языка. Его составление началось в 1998 г. в Институте лингвистики факультета гуманитарных и социальных наук Загребского университета, следуя идеям Марко Тадича. Теоретические основы и выражение потребности в универсальном, представительном и многомиллионном корпусе хорватского языка начали появляться еще раньше. Хорватский национальный корпус составлен из избранных текстов, написанных на хорватском языке, охватывающих все области, темы, жанры и стили: от литературных и научных текстов до учебников, газет, групп пользователей и чатов.
Первоначальный состав был разделен на две составляющие:
С 2004 года, с принятием концепции корпуса 3-го поколения, от двухкомпонентной структуры отказались в пользу нескольких подкорпусов и большего размера. С 2005 года 105 миллионов токенов HNK состоит из множества различных подкорпораций, которые можно искать по отдельности и все вместе в одном корпусе. С 2004 года HNK также перешла на новую серверную платформу, а именно сервер-клиентскую архитектуру Manatee / Bonito. Для поиска в HNK (сегодня все еще с бесплатным тестовым доступом) необходима бесплатная клиентская программа Bonito. Автором этого руководящего корпуса является Павел Рыхлы из Лаборатории обработки естественного языка факультета информатики Университета Масарика в Брно, Чешская Республика. Его интерфейс включает сложные и более сложные запросы по корпусу, различные типы статистических результатов, полные или частичные списки слов в соответствии с различными критериями запроса (с их частотой), частотное распределение типов, автоматическое определение словосочетания и т. Д.
последняя версия этого корпуса (версия 3) имеет 216,8 миллиона токенов. Онлайн-поиск доступен через поиск в веб-интерфейсе Bonito 2, который является частью NoSketch Engine, ограниченной версии программного обеспечения Sketch Engine.