Структура лексической разметки

редактировать

Управление языковыми ресурсами - Структура лексической разметки (LMF ; ISO 24613: 2008 ), это ISO Международная организация по стандартизации ISO / TC37 стандарт для обработки естественного языка (NLP) и машиночитаемый словарь (MRD) лексиконы. Сфера применения - стандартизация принципов и методов, относящихся к языковым ресурсам в контексте многоязычного общения.

Содержание

1 Цели
2 История
3 Текущий этап
4 Как один из членов семейства стандартов ISO / TC37
5 Ключевые стандарты
6 Структура модели
7 Пример
8 Избранные публикации о LMF
9 Специальная книга
- 9.1 Связанные научные сообщения
10 См. Также
11 Ссылки
- 11.1 Внешние ссылки

Цели

Цели LMF - предоставить общую модель для создания и использования лексических ресурсов, для управления обменом данными между этими ресурсами и между ними, а также для обеспечения возможности объединения большого числа отдельных электронных ресурсы для формирования обширных глобальных электронных ресурсов.

Типы индивидуальных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, как для письменных, так и для устных лексических представлений. Описания варьируются от морфологии, синтаксиса, вычислительной семантики до компьютерного перевода. Охватываемые языки не ограничиваются европейскими языками, но охватывают все естественные языки. Диапазон целевых приложений NLP не ограничен. LMF может представлять большинство лексиконов, включая лексиконы WordNet, EDR и PAROLE.

История

В прошлом стандартизация лексики изучалась и развивалась рядом проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO / TC37 решили обратиться к стандартам, посвященным НЛП и лексикону. Работа над LMF началась летом 2003 года с предложения о новом рабочем объекте, опубликованного делегацией США. Осенью 2003 года французская делегация выпустила техническое предложение для модели данных, посвященной лексиконам НЛП. В начале 2004 года комитет ISO / TC37 решил сформировать общий проект ISO с Николеттой Кальцолари (CNR -ILC Италия) в качестве организатора и (Tagmatica France) и Монте Джорджем (ANSI США) в качестве редакторов. Первым шагом в разработке LMF было создание общей структуры, основанной на общих характеристиках существующих лексиконов, и разработка последовательной терминологии для описания компонентов этих лексиконов. Следующим шагом была разработка всеобъемлющей модели, которая лучше всего представляла все лексиконы в деталях. Большая группа из 60 экспертов представила широкий спектр требований к LMF, которые охватывают многие типы лексиконов НЛП. Редакторы LMF работали в тесном сотрудничестве с группой экспертов, чтобы определить лучшие решения и прийти к консенсусу по дизайну LMF. Особое внимание было уделено морфологии, чтобы предоставить мощные механизмы для решения проблем на нескольких языках, которые были известны как сложные для решения. 13 версий были написаны, разосланы (назначенным национальными экспертами), прокомментированы и обсуждены на различных технических совещаниях ISO. После пяти лет работы, включая многочисленные личные встречи и обмен электронной почтой, редакторы пришли к согласованной модели UML. В заключение, LMF следует рассматривать как синтез современного уровня в области лексики НЛП.

Текущая стадия

Номер ISO - 24613. Спецификация LMF была официально опубликована в качестве международного стандарта 17 ноября 2008 года.

Как один из членов ISO Семейство стандартов / TC37

Стандарты ISO / TC37 в настоящее время разработаны как высокоуровневые спецификации и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF и ISO 24617-1 aka SemAF / Time), структуры объектов (ISO 24610), мультимедийные контейнеры (ISO 24616 aka MLIF) и лексиконы (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (версия ISO 12620), языковые коды (ISO 639 ), коды скриптов ( ISO 15924 ), коды стран (ISO 3166 ) и Unicode (ISO 10646 ).

Двухуровневая организация образует связное семейство стандартов со следующими общими и простыми правилами:

спецификация высокого уровня предоставляет структурные элементы, которые украшены стандартизованными константами;
спецификации уровня предоставляют стандартизованные константы как метаданные.

Ключевые стандарты

Лингвистические константы, такие как / женский / или / транзитивный /, не определены в LMF, но записываются в Реестр категорий данных (DCR), который поддерживается как глобальный ресурс ISO / TC37 в соответствии с ISO / IEC 11179-3: 2003. И эти константы используются для украшения структурных элементов высокого уровня.

Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура задается с помощью UML-класса диаграмм. Примеры представлены с помощью диаграмм экземпляров (или объектов) UML.

XML DTD приведен в приложении к документу LMF.

Структура модели

LMF состоит из следующих компонентов:

Базовый пакет, который представляет собой структурный каркас, который описывает базовую иерархию информации в лексической статье.
Расширения основного пакета, которые выражаются в структуре, описывающей повторное использование основных компонентов в сочетании с дополнительными компонентами, необходимыми для конкретного лексического ресурса.

Расширения специально предназначены для морфологии, MRD, NLP синтаксис, NLP семантика, NLP многоязычные нотации, NLP морфологические шаблоны, многословные выражения шаблоны и выражения ограничения шаблоны.

Пример

В следующем примере лексическая статья связана с леммой clergyman и двумя изменяемыми формами clergyman и clergymen. Языковая кодировка устанавливается для всего лексического ресурса. Значение языка устанавливается для всего словаря, как показано на следующей диаграмме UML instance.

Элементы Лексический ресурс, Глобальная информация, Лексика, Лексическая запись, Лемма и Словоформа определяют структуру лексики. Они указаны в документе LMF. Напротив, languageCoding, language, partOfSpeech, commonNoun, writingForm, grammaticalNumber, единственное, множественное число - это категории данных, взятые из реестра категорий данных. Эти знаки украшают конструкцию. Значения ISO 639-3, священник, священнослужители представляют собой простые строки символов. Значение eng взято из списка языков, определенного в ISO 639-3.

. С некоторой дополнительной информацией, такой как dtdVersion и feat, те же данные могут быть выражены следующим фрагментом XML :

Этот пример довольно прост, в то время как LMF может представлять гораздо более сложные лингвистические описания, соответственно, тегирование XML является сложным.

Избранные публикации о LMF

Первая публикация о спецификации LMF, ратифицированная ISO (этот документ стал (в 2015 г.) 9-м по цитируемости в списке Language Resources и оценка конференции из статей LREC):

Языковые ресурсы и оценка LREC-2006 / Genoa: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexical Markup Framework (LMF)

О семантическом представлении:

Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: стандарт лексической разметки ISO Framework для лексической разметки семантическая информация в лексиконах НЛП

Об африканских языках:

Traitement Automatique des langues naturelles, Марсель, 2014: Мухамаду Хоуле, Мухамад Ндианко Тиам, Эль Хадж Мамаду Нгуер: К созданию лексики языка волоф на основе LMF ла мисс e en place d'un lexique basé sur LMF pour la langue wolof) [на французском языке]

Об азиатских языках:

Лексикография, Журнал ASIALEX, Springer 2014: Lexical Markup Framework: Gil Francopoulo, Chu-Ren Huang: Стандарт ISO для электронных лексиконов и его значение для азиатских языков DOI 10.1007 / s40607-014-0006-z

О европейских языках:

COLING 2010: Верена Хенрих, Эрхард Хинрихс: Стандартизация Wordnet в стандарте ISO LMF: Wordnet -LMF для GermaNet
EACL 2012: Джудит Экл-Колер, Ирина Гуревич: Подкатегория-LMF: Разработка стандартизированного формата для взаимодействия фреймов подкатегории
EACL 2012: Ирина Гуревич, Джудит Экл-Колер, Сильвана Хартманн, Майкл Матушек, Кристиан М. Мейер, Кристиан Вирт: UBY - крупномасштабный унифицированный лексико-семантический ресурс на основе LMF.

О семитских языках:

Journal of Natural Language Engineering, Кембриджский университет Пресса (появится весной 2015 года): Аида Хемахем, Билел Гаргури, Абдельмаджид Бен Хамаду, Гил Франкопуло: Стандартное моделирование большого арабского словаря ISO.
Материалы седьмой Глобальной конференции Wordnet 2014: Надя Б.М. Кармани, Хсан Сусу, Адель М. Алими: Создание стандартизированной Wordnet в ISO LMF для aeb language.
Материалы семинара: HLT и NLP в арабском мире, LREC 2008: Нуреддин Лукил, Кайс Хаддар, Абдельмаджид Бен Хамаду: На пути к синтаксической лексике арабских глаголов.
Traitement Automatique des Langues Naturelles, Тулуза (на французском языке) 2007: Khemakhem A, Gargouri B, Abdelwahed A, Francopoulo G: Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613.

Специальная книга

В 2013 году опубликована книга LMF Lexical Markup Framework, полностью посвященная LMF. Первая глава посвящена истории моделей лексики, вторая глава представляет собой формальное представление модели данных, а третья посвящена связи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе гражданского или военного назначения в рамках научно-исследовательских лабораторий или промышленных приложений. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF, LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.

Связанные научные коммуникации

Языковые ресурсы и оценка LREC-2006 / Genoa: Актуальность стандартов для исследовательских инфраструктур

См. Также

Вычислительная лексикология
Лексическая семантика
Морфология (лингвистика) для объяснения парадигм и морфосинтаксиса
Машинный перевод для представления различных типов многоязычных обозначений (см. Раздел Подходы)
Морфологический образец для разницы между парадигмами и образец парадигмы
WordNet для представления наиболее известного семантического лексикона для английского языка
Universal Terminology eXchange (UTX) для ориентированного на пользователя альтернативного формата для машиночитаемых словарей
Universal Networking Language
UBY-LMF для приложения LMF
OntoLex-Lemon для модели на основе LMF для публикации словарей в виде графов знаний, в RDF и / или как Linguistic Linked Open Data