Языковой ресурс

редактировать

В лингвистике и языковых технологиях языковой ресурс представляет собой «[состав] лингвистического материала, используемого при создании, улучшении и / или оценке приложений обработки языка, (...) в языке и языковые исследования и приложения ».

Согласно Bird Simons (2003), сюда входят

  1. данные, т. е.« любая информация, которая документирует или описывает язык, например, опубликованная монография, компьютер файл данных или даже коробку из-под обуви, полную рукописных учетных карточек. Информация может варьироваться по содержанию от неанализированных звукозаписей до полностью транскрибированных и аннотированных текстов и до полной описательной грамматики »,
  2. инструментов, т. Е.« Вычислительных ресурсов, которые облегчают создание, просмотр, запросы или иное использование языковых данных » и
  3. совет, т. е. «любая информация о том, какие источники данных являются надежными, какие инструменты подходят в данной ситуации, какие методы следует соблюдать при создании новых данных». Последний аспект обычно называют "передовой практикой" или "стандартами (сообщества)".

В более узком смысле языковой ресурс специально применяется к ресурсам, которые доступны в цифровой форме, а затем "охватывают (а) наборы данных (текстовые, мультимодальные / мультимедийные и лексические данные, грамматики, языковые модели и т. д.) в машиночитаемой форме и (b) инструменты / технологии / услуги, используемые для их обработки и управления. '

Типология

По состоянию на май 2020 г. широко используемая стандартная типология языковых ресурсов не была установлена ​​(текущие предложения включают LREMap, METASHARE и, для данных, классификацию LLOD ). Важные классы языковых ресурсов включают

  1. данные
    1. лексические ресурсы, например, машиночитаемые словари,
    2. лингвистические корпуса, то есть цифровые коллекции данных естественного языка,
    3. лингвистические базы данных, такие как коллекция Cross-Linguistic Linked Data,
  2. инструменты
    1. лингвистические аннотации и инструменты для создания таких аннотаций в ручном или полуавтоматическом режиме (например, инструменты для аннотирование подстрочного сглаженного текста, такого как Toolbox и FLEx, или других языковых инструментов документации ),
    2. приложений для поиска и извлечения по таким данным (системы управления корпусом ), для автоматической аннотации (тегирование части речи, синтаксический синтаксический анализ, семантический синтаксический анализ и т. д.),
  3. метаданные и словари
    1. словари, репозитории лингвистической терминологии и языковых метаданных, например, MetaShare (для метаданных языковых ресурсов), реестр категорий данных ISO 12620 (для языковые особенности, структуры данных и аннотации в языковом ресурсе) или базу данных Glottolog (идентификаторы языковых разновидностей и библиографическая база данных).
Публикация, распространение и создание языковых ресурсов

Основная проблема Сообщество языковых ресурсов должно разрабатывать инфраструктуры и платформы для представления, обсуждения и распространения языковых ресурсов. Избранные материалы в этом отношении включают:

Что касается разработки стандартов и передовых методов для языковых ресурсов, они являются предметом несколько групп сообщества и усилия по стандартизации, включая

  • ISO Технический комитет 37: Терминология и другие языковые и информационные ресурсы (ISO / TC 37 ), разрабатывающие стандарты для всех аспектов языковых ресурсов,
  • W3C Передовой опыт группы сообщества для многоязычных связанных открытых данных (BPMLOD), работающий над рекомендациями передовой практики ионы для публикации языковых ресурсов в виде связанных данных или в RDF,
  • связанных данных группы сообщества W3C для языковых технологий (LD4LT), работа над лингвистическими аннотациями в Интернете и метаданными языковых ресурсов,
  • Группа сообщества W3C Ontology-Lexica (OntoLex ), работающая над лексическими ресурсами,
  • рабочая группа по открытой лингвистике Open Knowledge Foundation, работающая над соглашениями для публикации и связывания открытых языковых ресурсов, разработки облака Linguistic Linked Open Data,
  • Text Encoding Initiative (TEI), работы над Спецификации на основе XML для языковых ресурсов и текста, редактируемого в цифровом виде.
Ссылки
Последняя правка сделана 2021-05-26 13:10:18
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте