Управление языковыми ресурсами - Структура лексической разметки (LMF ; ISO 24613: 2008 ), это ISO Международная организация по стандартизации ISO / TC37 стандарт для обработки естественного языка (NLP) и машиночитаемый словарь (MRD) лексиконы. Сфера применения - стандартизация принципов и методов, относящихся к языковым ресурсам в контексте многоязычного общения.
Цели LMF - предоставить общую модель для создания и использования лексических ресурсов, для управления обменом данными между этими ресурсами и между ними, а также для обеспечения возможности объединения большого числа отдельных электронных ресурсы для формирования обширных глобальных электронных ресурсов.
Типы индивидуальных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, как для письменных, так и для устных лексических представлений. Описания варьируются от морфологии, синтаксиса, вычислительной семантики до компьютерного перевода. Охватываемые языки не ограничиваются европейскими языками, но охватывают все естественные языки. Диапазон целевых приложений NLP не ограничен. LMF может представлять большинство лексиконов, включая лексиконы WordNet, EDR и PAROLE.
В прошлом стандартизация лексики изучалась и развивалась рядом проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO / TC37 решили обратиться к стандартам, посвященным НЛП и лексикону. Работа над LMF началась летом 2003 года с предложения о новом рабочем объекте, опубликованного делегацией США. Осенью 2003 года французская делегация выпустила техническое предложение для модели данных, посвященной лексиконам НЛП. В начале 2004 года комитет ISO / TC37 решил сформировать общий проект ISO с Николеттой Кальцолари (CNR -ILC Италия) в качестве организатора и (Tagmatica France) и Монте Джорджем (ANSI США) в качестве редакторов. Первым шагом в разработке LMF было создание общей структуры, основанной на общих характеристиках существующих лексиконов, и разработка последовательной терминологии для описания компонентов этих лексиконов. Следующим шагом была разработка всеобъемлющей модели, которая лучше всего представляла все лексиконы в деталях. Большая группа из 60 экспертов представила широкий спектр требований к LMF, которые охватывают многие типы лексиконов НЛП. Редакторы LMF работали в тесном сотрудничестве с группой экспертов, чтобы определить лучшие решения и прийти к консенсусу по дизайну LMF. Особое внимание было уделено морфологии, чтобы предоставить мощные механизмы для решения проблем на нескольких языках, которые были известны как сложные для решения. 13 версий были написаны, разосланы (назначенным национальными экспертами), прокомментированы и обсуждены на различных технических совещаниях ISO. После пяти лет работы, включая многочисленные личные встречи и обмен электронной почтой, редакторы пришли к согласованной модели UML. В заключение, LMF следует рассматривать как синтез современного уровня в области лексики НЛП.
Номер ISO - 24613. Спецификация LMF была официально опубликована в качестве международного стандарта 17 ноября 2008 года.
Стандарты ISO / TC37 в настоящее время разработаны как высокоуровневые спецификации и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF и ISO 24617-1 aka SemAF / Time), структуры объектов (ISO 24610), мультимедийные контейнеры (ISO 24616 aka MLIF) и лексиконы (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (версия ISO 12620), языковые коды (ISO 639 ), коды скриптов ( ISO 15924 ), коды стран (ISO 3166 ) и Unicode (ISO 10646 ).
Двухуровневая организация образует связное семейство стандартов со следующими общими и простыми правилами:
Лингвистические константы, такие как / женский / или / транзитивный /, не определены в LMF, но записываются в Реестр категорий данных (DCR), который поддерживается как глобальный ресурс ISO / TC37 в соответствии с ISO / IEC 11179-3: 2003. И эти константы используются для украшения структурных элементов высокого уровня.
Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура задается с помощью UML-класса диаграмм. Примеры представлены с помощью диаграмм экземпляров (или объектов) UML.
XML DTD приведен в приложении к документу LMF.
LMF состоит из следующих компонентов:
Расширения специально предназначены для морфологии, MRD, NLP синтаксис, NLP семантика, NLP многоязычные нотации, NLP морфологические шаблоны, многословные выражения шаблоны и выражения ограничения шаблоны.
В следующем примере лексическая статья связана с леммой clergyman и двумя изменяемыми формами clergyman и clergymen. Языковая кодировка устанавливается для всего лексического ресурса. Значение языка устанавливается для всего словаря, как показано на следующей диаграмме UML instance.
Элементы Лексический ресурс, Глобальная информация, Лексика, Лексическая запись, Лемма и Словоформа определяют структуру лексики. Они указаны в документе LMF. Напротив, languageCoding, language, partOfSpeech, commonNoun, writingForm, grammaticalNumber, единственное, множественное число - это категории данных, взятые из реестра категорий данных. Эти знаки украшают конструкцию. Значения ISO 639-3, священник, священнослужители представляют собой простые строки символов. Значение eng взято из списка языков, определенного в ISO 639-3.
. С некоторой дополнительной информацией, такой как dtdVersion и feat, те же данные могут быть выражены следующим фрагментом XML :
Этот пример довольно прост, в то время как LMF может представлять гораздо более сложные лингвистические описания, соответственно, тегирование XML является сложным.
Первая публикация о спецификации LMF, ратифицированная ISO (этот документ стал (в 2015 г.) 9-м по цитируемости в списке Language Resources и оценка конференции из статей LREC):
О семантическом представлении:
Об африканских языках:
Об азиатских языках:
О европейских языках:
О семитских языках:
В 2013 году опубликована книга LMF Lexical Markup Framework, полностью посвященная LMF. Первая глава посвящена истории моделей лексики, вторая глава представляет собой формальное представление модели данных, а третья посвящена связи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе гражданского или военного назначения в рамках научно-исследовательских лабораторий или промышленных приложений. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF, LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.