Лингвистические категории

редактировать

Лингвистические категории включают

Определение языковых категорий является основной задачей лингвистической теории, и, таким образом, определение и наименование категорий варьируются в зависимости от теоретических рамки и грамматические традиции для разных языков. операционализация лингвистических категорий в лексикографии, компьютерной лингвистике, обработке естественного языка, корпусной лингвистике и управление терминологией обычно требует определения лингвистических категорий для конкретных ресурсов, проблем или приложений.

Содержание
  • 1 Перечень лингвистических категорий
    • 1.1 Наборы тегов части речи
    • 1.2 Многоязычные схемы аннотации
    • 1.3 Соглашения для подстрочных толкований
    • 1.4 Общая онтология лингвистического описания (GOLD)
    • 1.5 ISO 12620 (Реестр категорий данных ISO TC37, ISOcat)
    • 1.6 Онтологии лингвистической аннотации (OLiA)
  • 2 Ссылки
  • 3 Внешние ссылки
Перечни лингвистических категорий

Для облегчения взаимодействие между лексическими ресурсами, лингвистическими аннотациями и инструментами аннотации, а также для систематической обработки лингвистических категорий в различных теоретических рамках был проведен ряд инвентаризаций лингвистических категорий. разработаны и используются с примерами, приведенными ниже. Практическая цель таких инвентаризаций состоит в том, чтобы выполнить количественную оценку (для инвентаризаций конкретных языков), обучить инструменты НЛП или облегчить кросс-лингвистическую оценку, запросы или аннотации языковых данных. На теоретическом уровне существование универсальных категорий в человеческом языке было постулировано, например, в Универсальной грамматике, но также подверглось резкой критике.

тегами части речи

В школах обычно учат, что в английском языке есть 9 частей речи : существительное, глагол, артикль, прилагательное, предлог, местоимение, наречие, союз и междометие. Однако явно существует гораздо больше категорий и подкатегорий. Для существительных можно различать формы множественного, притяжательного и единственного числа. Во многих языках слова также помечаются по своему «падежу » (роль субъекта, объекта и т. Д.), грамматическому роду и т. Д.; в то время как глаголы помечены как время, аспект и другие вещи. В некоторых системах тегов разные склонения одного и того же корневого слова будут иметь разные части речи, что приведет к большому количеству тегов. Например, NN для существительных в единственном числе, NNS для существительных во множественном числе, NP для имен собственных в единственном числе (см. Теги POS, используемые в Brown Corpus). Другие системы тегов используют меньшее количество тегов и игнорируют мелкие различия или моделируют их как особенности, в некоторой степени независимые от части речи.

При компьютерной маркировке части речи это Для английского языка характерно различать от 50 до 150 отдельных частей речи. Работа с тегами POS выполняется на разных языках, и набор используемых тегов POS сильно зависит от языка. Теги обычно предназначены для включения явных морфологических различий, хотя это приводит к несоответствиям, таким как разметка падежа для местоимений, но не существительных в английском языке, и гораздо более серьезных межъязыковых различий. Наборы тегов для языков с сильной изменчивостью, таких как греческий и латинский, могут быть очень большими; пометка слов в агглютинативных языках, таких как инуитских языках, может быть практически невозможна. В ходе работы над стохастическими методами тегирования греческого языка койне (DeRose 1990) было использовано более 1000 частей речи и было обнаружено, что примерно столько же слов неоднозначно в этом языке, сколько по-английски. Морфосинтаксический дескриптор в случае морфологически богатых языков обычно выражается с помощью очень коротких мнемоник, таких как Ncmsan для Категория = Существительное, Тип = общий, Пол = мужской, Число = единственное число, Регистр = винительный падеж, Анимация = нет.

Самым популярным «набором тегов» для тегов POS для американского английского, вероятно, является набор тегов Penn, разработанный в проекте Penn Treebank.

Многоязычные схемы аннотации

Для западноевропейских языков кросс-лингвистические схемы аннотации для частей речи, морфосинтаксиса и синтаксиса были разработаны с Руководством Орла. Рекомендации Eagles вдохновили на последующую работу и в других регионах, например, в Восточной Европе.

Петров и др. предложили «универсальный», но в высшей степени редукционистский набор тегов с 12 категориями (например, без подтипов существительных, глаголов, знаков препинания и т. д.; без различия «to» в качестве маркера инфинитива и предлога (вряд ли « всеобщее «совпадение») и др.). Впоследствии это было дополнено кросс-языковыми спецификациями для синтаксиса зависимостей (Stanford Dependencies) и морфосинтаксиса (Interset interlingua, частично построенного на традиции Multext-East / Eagles) в контексте Универсальных зависимостей (UD), международный совместный проект по созданию древовидных групп языков мира с кросс-лингвистически применимыми («универсальными») аннотациями для частей речи, синтаксисом зависимостей и (необязательно) морфосинтаксическими (морфологическими) функциями. Основные приложения - это автоматизированная обработка текста в области обработки естественного языка (НЛП) и исследования синтаксиса и грамматики естественного языка, особенно в рамках лингвистической типологии. Схема аннотации уходит корнями в три связанных проекта: Схема аннотации UD использует представление в виде деревьев зависимостей, в отличие от деревьев структуры фраз. По состоянию на февраль 2019 года в инвентаре UD доступно чуть более 100 банков деревьев на более чем 70 языках. Основная цель проекта - добиться кросс-лингвистической согласованности аннотаций. Однако для морфологических функций разрешены языковые расширения (отдельные языки или ресурсы могут вводить дополнительные функции). В более ограниченной форме отношения зависимости могут быть расширены с помощью вторичной метки, которая сопровождает метку UD, например, aux: pass для вспомогательной (UD aux), используемой для обозначения пассивного голоса.

Универсальные зависимости вдохновили аналогичные усилия для областей флективной морфологии, семантики кадра и coreference. Для синтаксиса структуры фраз сопоставимых усилий, похоже, не существует, но спецификации Penn Treebank были применены (и расширены для) для широкого диапазона языков, например, Исландский, староанглийский, среднеанглийский, среднеанглийский, нижненемецкий, ранний современный верхненемецкий, идиш, португальский, японский, арабский и китайский языки.

Условные обозначения подстрочных глоссариев

В лингвистике, подстрочный глянец - это глянец (серия кратких пояснений, таких как определения или произношения), помещенный между строками (межстрочный + линейный), например, между строкой исходного текста и его переводом на другой язык. При сглаживании каждая строка исходного текста приобретает одну или несколько строк транскрипции, известных как подстрочный текст или подстрочный сглаженный текст (IGT) - для краткости межлинейный. Такие глоссы помогают читателю проследить взаимосвязь между исходным текстом и его переводом, а также структурой исходного языка. Стандартного инвентаря глянцевых материалов нет, но общие этикетки собраны в Лейпцигских правилах глянцевания. В Википедии также есть Список сокращений, основанный на этом и других источниках.

Общая онтология лингвистического описания (GOLD)

GOLD («Общая онтология лингвистического описания») - это онтология для описательной лингвистики. Он дает формализованный отчет о самых основных категориях и отношениях, используемых в научном описании человеческого языка, например, как формализация подстрочных толкований. GOLD был впервые представлен Фарраром и Лангендоеном (2003). Первоначально это было задумано как решение проблемы устранения несопоставимых схем разметки лингвистических данных, в частности данных с исчезающих языков. Однако GOLD гораздо более общий язык и может применяться ко всем языкам. В этой функции GOLD пересекается с реестром категорий данных ISO 12620 (ISOcat), однако он имеет более строгую структуру.

GOLD поддерживался LINGUIST List и другими с 2007 по 2010 год. Проект RELISH создал зеркало издания GOLD 2010 года в качестве выбора категории данных внутри ISOcat. По состоянию на 2018 год данные GOLD остаются важным терминологическим центром в контексте облака Linguistic Linked Open Data, но, поскольку оно больше не поддерживается активно, его функции все чаще заменяются на OLiA (для лингвистической аннотации на основе GOLD и ISOcat) и lexinfo.net (для метаданных словаря на основе ISOcat).

ISO 12620 (Реестр категорий данных ISO TC37, ISOcat)

ISO 12620 - это стандарт из ISO / TC 37, определяющий реестр для регистрации лингвистические термины, используемые в различных областях перевода, компьютерной лингвистики и обработки естественного языка, и определения сопоставлений как между разными терминами, так и теми же терминами, используемыми в разных системах. Более ранняя редакция этой системы, ISOcat, предоставляет постоянные идентификаторы и URI для лингвистических категорий, включая перечень онтологии GOLD (см. Ниже). С 2014 года активно не развивается. По состоянию на май 2020 года системы-преемники, CLARIN Concept Registry и DatCatInfo только появляются.

Для лингвистических категорий, относящихся к лексическим ресурсам, словарь lexinfo представляет собой установленный стандарт сообщества, в частности, в связи со словарем OntoLex и машиночитаемым словари в контексте технологий Linguistic Linked Open Data. Подобно словарю OntoLex, основанному на Lexical Markup Framework (LMF), lexinfo опирается на (раздел LMF) ISOcat. Однако, в отличие от ISOcat, lexinfo активно поддерживается и в настоящее время (май 2020 г.) расширяется сообществом.

Онтологии лингвистической аннотации (OLiA)

По духу похожи на GOLD, онтологии лингвистики. Аннотации (OLiA) предоставляют справочный перечень лингвистических категорий для синтаксических, морфологических и семантических явлений, относящихся к лингвистической аннотации и лингвистическим корпусам в форме онтологии. Кроме того, они также предоставляют машиночитаемые схемы аннотаций для более чем 100 языков, связанные с эталонной моделью OLiA. Онтологии OLiA представляют собой основной центр терминологии аннотаций в облаке (Linguistic) Linked Open Data с приложениями для поиска, извлечения и машинного обучения с использованием гетерогенно аннотированных языковых ресурсов.

В дополнение к схемам аннотаций, эталонная модель OLiA также связана с рекомендациями Eagles, GOLD, ISOcat, CLARIN Concept Registry, Universal Dependencies, lexinfo и т. Д., Таким образом, они обеспечивают взаимодействие между этими словарями. OLiA разрабатывается как проект сообщества на GitHub

Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-27 10:37:59
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте