Лингвистические связанные открытые данные

редактировать

В обработке естественного языка, лингвистике и соседних полях, Linguistic Linked Open Data (LLOD) описывает метод и междисциплинарное сообщество, занимающееся созданием, совместным использованием и (повторным) использованием языковых ресурсов в соответствии с принципами Linked Data. Лингвистически связанное облако открытых данных было задумано и поддерживается Рабочей группой по открытой лингвистике (OWLG) Open Knowledge Foundation, но было центром внимания нескольких W3C группы сообщества, исследовательские проекты и инфраструктурные разработки с тех пор.

Содержание

1 Определение и развитие
- 1.1 Словари LLOD
- 1.2 Сообщество
2 Приложения LLOD
- 2.1 Избранные исследовательские проекты
- 2.2 Избранные ресурсы
3 аспекта
4 Избранная литература
5 Ссылки

Определение и развитие

Облако LLOD (2016-05- 24)

Linguistic Linked Open Data описывает публикацию данных для лингвистики и обработки естественного языка с использованием следующих принципов:

Данные должны быть открыто лицензированы с использованием лицензий, таких как Creative Commons.
Элементы в наборе данных должны быть однозначно идентифицированы с помощью URI.
URI должен разрешаться, чтобы пользователи могли получить доступ к дополнительной информации с помощью веб-браузеров.
Разрешение ресурса LLOD должно возвращать результаты с использованием веб-стандартов, таких как Resource Description Framework (RDF).
Ссылки на другие ресурсы должны быть i Включено, чтобы помочь пользователям открывать новые ресурсы и обеспечивать семантику.

Основные преимущества LLOD были определены как:

Представление: Связанные графы - более гибкий формат представления лингвистических данных.
Взаимодействие: Общее Модели RDF можно легко интегрировать.
Федерация: данные из нескольких источников можно легко объединить.
Экосистема: инструменты для RDF и связанных данных широко доступны по лицензиям с открытым исходным кодом.
Выразительность: существующие словари помогают выражать лингвистические ресурсы.
Семантика: общие ссылки выражают то, что вы имеете в виду.
Динамичность: веб-данные можно постоянно улучшать.

Дом облака LLOD диаграмма находится на linguistic-lod.org

словари LLOD

Помимо сбора метаданных и создания облачной диаграммы LLOD, сообщество LLOD стимулирует разработку стандартов сообщества в отношении словарей, метаданных и рекомендации передовой практики.

Согласно современному обзору Cimiano et al. (2020), к ним относятся:

для моделирования лексических ресурсов
- OntoLex-Lemon, стандарт сообщества для лексических ресурсов (машиночитаемые словари, многоязычная терминология, лексикализация онтологий)
для моделирования лингвистических аннотаций (в corpora или NLP)
- Web Annotation, стандарт W3C для аннотации веб-ресурсов (текстовых или иных)
- Формат обмена NLP (NIF), стандарт сообщества для грамматической аннотации текста
- CoNLL-RDF, словарь на основе NIF для представления RDF корпусов в традиционных форматах TSV («CoNLL»)
- POWLA, словарь для общих лингвистических структур данных, которые можно использовать для дополнения NIF, CoNLL-RDF или Web Annotation

для категорий лингвистических данных
- Онтологии лингвистической аннотации (OLiA) для лингвистической аннотации
- lexinfo для грамматических и других функций в лексических ресурсах
для идентификация языка
- в виде строк с языковыми тегами с использованием языкового тега IETF BCP 47 s
- с ISO 639-3 URI, предоставленными lexvo.org
- с Glottolog URI для языковых разновидностей, не охваченных ISO 639
для метаданных
- Dublin Core, стандарт терминов сообщества, который может использоваться для описания веб-ресурсов
- Словарь каталогов данных (DCAT), стандарт W3C для каталогов данных, опубликованных в Интернете
- METASHARE-OWL, словарь для метаданных языковых ресурсов

По состоянию на середину 2020 года над большинством этих стандартов сообщества активно ведется работа. Особенно проблематичным является существование нескольких несовместимых стандартов для лингвистических аннотаций, и в начале 2020 года группа сообщества W3C, связанная с языковыми технологиями, начала работать над консолидацией этих (и других) словарей для лингвистических аннотаций в Интернете.

Сообщество

Облачная диаграмма LLOD была разработана и поддерживается Рабочей группой по открытой лингвистике (OWLG) Open Knowledge Foundation (с 2014 г. Open Knowledge), открытого и междисциплинарный опыт специалистов по языковым ресурсам.

OWLG организует общественные мероприятия и координирует разработки LLOD и способствует междисциплинарному общению между участниками и пользователями LLOD.

Несколько бизнес-групп и групп сообщества W3C сосредоточены на специализированных аспектах LLOD:

Группа сообщества W3C Ontology-Lexica (OntoLex ) разрабатывает и поддерживает спецификации для машиночитаемых словарей в LLOD. cloud.
Группа сообщества W3C Best Practices for Multilingual Linked Open Data собирает информацию о передовых методах создания многоязычных связанных открытых данных.
Группа сообщества W3C Linked Data for Language Technology собирает примеры пользователей и требования к приложениям языковых технологий, использующим связанные данные.

Разработка LLOD продвигается вперед и задокументирована в серии международных семинаров, дататонов и связанных публикаций. Среди прочего, к ним относятся

Связанные данные в лингвистике (LDL), ежегодный научный семинар, начатый в 2012 г.
Многоязычные связанные открытые данные для предприятий (MLODE), проводимые раз в два года встречи сообщества (2012 и 2014)
Summer Datathon on Linguistic Linked Open Data (SD-LLOD), проводимый два раза в год, с 2015 года

Приложения LLOD

Linguistic Linked Open Data применяется для решения ряда проблем научных исследований :

Во всех областях эмпирической лингвистики, компьютерной филологии и обработки естественного языка лингвистическая аннотация и лингвистическая разметка представляют собой центральные элементы анализа. Однако прогрессу в этой области препятствуют проблемы совместимости, в первую очередь различия в словарях и схемах аннотаций, используемых для разных ресурсов и инструментов. Использование связанных данных для соединения языковых ресурсов и онтологий / терминологии репозиториев облегчает повторное использование общих словарей и их интерпретацию на общей основе.
В корпусной лингвистике и вычислительной филологии, перекрывающаяся разметка представляет собой печально известную проблему для обычных форматов XML. Следовательно, модели данных на основе графов были предложены с конца 1990-х годов. Они традиционно представлены в виде множества взаимосвязанных файлов XML (standoff XML), которые плохо поддерживаются стандартной технологией XML. Моделирование таких сложных аннотаций, как связанные данные, представляет собой формализм, семантически эквивалентный standoff XML, но устраняет необходимость в специальной технологии и, вместо этого, опирается на существующую экосистему RDF.
Многоязычные проблемы, включая связывание лексические ресурсы, такие как WordNet, как это выполнено в Межъязыковом указателе Глобальной ассоциации WordNet, и взаимосвязанные разнородные ресурсы, такие как WordNet и Wikipedia, как это было сделано в BabelNet.
Обеспечение форумов для стандартизации лингвистических ресурсов информация

Linguistic Linked Open Data тесно связана с разработкой

передовых методов связывания лексических данных в Интернете (для данных, опубликованных в соответствии с OntoLex согласованиями)
best методы создания аннотаций в Интернете (например, с использованием стандарта Web Annotation )
лучшие практики моделирования и совместного использования текстовых ресурсов с перекрывающейся разметкой

Избранный исследовательский проект ts

Использование и развитие LLOD было предметом нескольких крупномасштабных исследовательских проектов, включая

LOD2. Создание знаний из взаимосвязанных данных (11 стран ЕС + Корея, 2010–2014 гг.)
МОННЕТ. Многоязычные онтологии сетевых знаний (5 стран ЕС, 2010–2013 гг.)
LIDER. Связанные данные как инструмент кросс-медийной и многоязычной аналитики контента для предприятий по всей Европе (5 стран ЕС, 2013–2015 гг.)
QTLeap. Качественный перевод с использованием подходов глубинной инженерии (6 стран ЕС, 2013–2016 гг.)
LiODi. Связанные открытые словари (BMBF eHumanities Early Career Research Group, Университет Гете, Франкфурт, Германия, 2015-2020)
FREME. Открытая структура электронных услуг для многоязычного и семантического обогащения цифрового контента (6 стран ЕС, 2015-2017 гг.)
POSTDATA. Стандартизация поэзии и связанные открытые данные (стартовый грант ERC, UNED, Испания, 2016-2021)
Linking Latin (ERC Consolidator Grant, Universita Cattolica del Sacro Cuore, Италия, 2018-2023)
Pret-a-LLOD (5 стран ЕС, 2019-2021)
NexusLinguarum. Европейская сеть лингвистических данных, ориентированная на Интернет (COST Action, 35 стран COST, 2 соседних страны, одна международная страна-партнер, 2019-2023 гг.)

Избранные ресурсы

По состоянию на октябрь 2018 г., 10 самых Часто связанные ресурсы на диаграмме LLOD (в порядке количества связанных наборов данных):

Онтологии лингвистической аннотации (OLiA, связанные с 74 наборами данных) предоставляют справочную терминологию для лингвистических аннотаций и грамматических метаданных;
WordNet (связанный с 51 набором данных), лексическая база данных для английского языка и сводная база для разработки аналогичных баз данных для других языков, с несколькими редакциями (редакция Princeton связана с 36 наборами данных; редакция W3C связана с 8 наборами данных; версия VU связана с 7 наборами данных);
DBpedia (связана с 50 наборами данных) многоязычная база знаний общего мира, основанная на Википедии;
lexinfo.net (связана с 36 datasets) предоставляет справочную терминологию для лексических ресурсов;
Babe lNet (связанный с 33 наборами данных) многоязычная лексикализованная семантическая сеть, основанная на агрегировании различных других ресурсов, в первую очередь WordNet и Wikipedia;
lexvo.org (связанного с 26 наборами данных) предоставляет идентификаторы языка и другие данные, связанные с языком. Что наиболее важно, lexvo обеспечивает представление RDF ISO 639-3 трехбуквенных кодов для идентификаторов языков и информации об этих языках;
ISO 12620 Реестр категорий данных (ISOcat; версия RDF, связанная с 10 наборами данных) предоставляет частично структурированный репозиторий для различной терминологии, связанной с языком. Хостинг ISOcat находится в The Language Archive, соответственно, в проекте DOBES, в Институте психолингвистики им. Макса Планка, но в настоящее время осуществляется переход на CLARIN ;
UBY (RDF edition лимон-Uby, связанный с 9 наборами данных), лексическая сеть для английского языка, собранная из различных лексических ресурсов;
Glottolog (связанный с 7 наборами данных) предоставляет детализированные идентификаторы языков для языков с низким уровнем ресурсов, в частности, многие из них не охвачены lexvo.org;
Викисловарь - Ссылки на DBpedia (wiktionary.dbpedia.org, связанный с 7 наборами данных), лексикализация концепций DBpedia на основе викисловаря.

Аспекты

Существует ряд повторяющихся дискуссий относительно различных аспектов этого термина, его применимости и для определенного типа ресурсов.

Лингвистические данные: объем и классификация

Помимо ресурсов, используемых и созданных для лингвистических исследований, облачная диаграмма LLOD также включает онтологии, терминологию и общие базы знаний, которые Разработка se изначально не была вызвана интересом к языковым наукам или языковым технологиям, например, DBpedia. В качестве критерия для включения в диаграмму LLOD OWLG требует «лингвистической релевантности»: «[A] набор данных лингвистически релевантен, если он предоставляет или описывает языковые данные, которые могут быть использованы для целей лингвистических исследований или обработки естественного языка». Сюда входят лингвистические ресурсы в строгом смысле слова («условие 1»: аннотированный или иным образом структурированный ресурс, созданный для применения в лингвистических науках или языковых технологиях, как продемонстрировано, например, научной публикацией в журнале или конференции, посвященной лингвистике), но также и ресурсы, "которые могут быть использованы для аннотирования, обогащения, извлечения или классификации языковых ресурсов... [если их актуальность] может быть подтверждена наличием связей между ресурсом (лингвистическая релевантность которого должна быть подтверждена) и ресурсами, выполняющими condition (1) "(" condition 2 ").

Смежным вопросом является классификация лингвистически релевантных наборов данных (или языковых ресурсов в целом). OWLG разработала следующую классификацию облачной диаграммы LLOD:

корпус : лингвистически проанализированный набор языковых данных
лексиконы: лексико-концептуальные данные
- лексические ресурсы : лексиконы и словари
- базы терминов : терминология, тезаурусы и базы знаний
метаданные
- метаданные лингвистических ресурсов (метаданные о языковых ресурсах, включая цифровые языковые ресурсы и печатные книги)
- категории лингвистических данных (метаданные о лингвистической терминологии, включая лингвистические категории, языковые идентификаторы)
- типологические базы данных (метаданные об отдельных языках, особенно лингвистических особенностях из этих языков)
другое (заполнитель для ресурсов, которые (пока) не классифицированы)

Обратите внимание, что в этой классификации терминологические базы находятся на грани лингвистической значимости, поскольку они обычно создаются для целей, отличных от языковых технологий или лингвистическое исследование.

Открытые данные: доступность

LLOD определяется в отношении связанных открытых данных, и ресурсы (данные) LLOD, таким образом, должны соответствовать лицензиям в соответствии с Open Definition. Однако для генерации облачной диаграммы LLOD (и диаграммы LOD) это, похоже, еще не применяется, поэтому техническим критерием является доступность через Интернет и запись метаданных. В OWLG неоднократно обсуждалось, могут ли быть включены некоммерческие (академические) ресурсы, с общим согласием принять их на данный момент (2015 г.), но с последующим введением более строгих требований вместе с ростом облака LLOD. По состоянию на январь 2018 года еще не было согласовано, когда этот шаг должен был произойти. По состоянию на январь 2020 года машиночитаемые метаданные лицензий были доступны для 86 ресурсов LLOD, из них 82 приняли открытые лицензии, 4 приняли некоммерческие лицензии.

В более широком смысле термин технология LLOD (инфраструктуры, инструменты, словари) также можно использовать для обозначения технологии независимо от того, задействованы ли на самом деле открытые ресурсы, например, в названии проекта ЕС Pret-a-LLOD, который включает несколько коммерческих бизнес-кейсов. Это оправдано для приложений, которые потребляют (а не предоставляют) открытые данные, но, более того, также, когда технология связанных данных и принятие других соглашений LLOD (особенно, использование словарей RDF, разработанных в контексте LLOD), применяются в порядке для облегчения бесшовной интеграции ресурсов LLOD (открытых ресурсов).

Аббревиатура «LLOD» может использоваться для обозначения либо технологии LLOD (использование словарей связанных данных и LLOD, независимо от правового статуса обрабатываемых данных), либо ресурсов LLOD (открытых данных). Для устранения неоднозначности могут использоваться термины «ресурсы LLOD» и «технология LLOD». Чтобы подчеркнуть применение или применимость к закрытым ресурсам, также использовались "LLD" (лингвистические связанные данные). Возможный компромисс - это аббревиатура технологии LL (O) D. Облако «лицензированных лингвистических связанных данных», которое содержит закрытые ресурсы, в настоящее время (июнь 2020 г.) не существует.

Связанные данные: форматы

Для определения связанных данных требуется приложение RDF или соответствующие стандарты. Сюда входят рекомендации W3C: SPARQL, Turtle, JSON-LD, RDF-XML, RDFa и т. Д. Однако в языковых технологиях и языковых науках в настоящее время более популярны другие формализмы, и включение таких данных в облачную диаграмму LLOD имеет время от времени запрашивались. Для нескольких таких языков существуют стандартизированные W3C механизмы упаковки (например, для XML, CSV или реляционных баз данных см. Извлечение знаний # Извлечение из структурированных источников в RDF ), и такие данные могут быть интегрированным при условии, что соответствующее отображение предоставляется вместе с исходными данными.

Избранная литература

Исчерпывающее описание современного состояния LLOD предоставлено

Чимиано, Филипп; Чиаркос, Кристиан; McCrae, John P.; Грация, Хорхе (2020). Лингвистические связанные данные: представление, генерация и приложения. Springer International Publishing

Концепция облака открытых лингвистических данных была первоначально введена

Кьяркосом, Кристианом, Хеллманном, Себастьяном и Нордхоффом, Себастьяном (2011). На пути к облаку связанных открытых данных с лингвистической связью: Рабочая группа по открытой лингвистике. TAL (Traitement Automatique des Langues), 52 (3), 245-275.

Первая книга по этой теме -

Кристиан Кьяркос, Себастьян Нордхофф и Себастьян Хеллманн (ред., 2012). Связанные данные в лингвистике. Представление и соединение языковых данных и языковых метаданных. Springer, Heidelberg.

Согласно Cimiano et al. (2020), с тех пор другие основополагающие публикации включают

Кристиана Чиаркоса, Стивена Морана, Пабло Н. Мендеса, Себастьяна Нордхоффа и Ричарда Литтауэра. Создание связанного облака открытых данных лингвистических ресурсов: мотивация и разработки. В Ирине Гуревич и Юнги Ким (ред.) «Народная сеть встречается с НЛП». Совместно созданные языковые ресурсы. Спрингер, Гейдельберг, 2013.
Кристиан Чиаркос, Джон МакКрэй, Филипп Чимиано и Кристиан Феллбаум. К открытым данным для лингвистики: лексические связанные данные. В Алессандро Олтрамари, Пике Фоссен, Лу Цинь и Эдуард Хови (ред.), Новые направления исследований в онтологиях и лексических ресурсах. Springer, Heidelberg, 2013.
Хорхе Грасиа, Елена Монтьель-Понсода, Филипп Чимиано, Асунсьон Гомес-Перес, Пол Буйтелаар и Джон МакКрэй. Проблемы для многоязычной сети данных // Журнал веб-семантики, т. 11. С. 63–71. Elsevier B.V., 2012.

События с 2015 по 2019 год обобщены в сборнике

Пареха-Лора, Антонио; Похоть, Барбара; Блюм, Мария; Chiarcos, Christian (ред., 2020). Разработка лингвистических связанных ресурсов открытых данных для совместных исследований с большим объемом данных в языковых науках. The MIT Press

Ссылки