Грамматика структуры фраз, управляемая заголовком

редактировать

Грамматика структуры фраз, управляемая заголовком (HPSG ) - это сильно лексикализованная грамматика на основе ограничений разработан Карлом Поллардом и Иваном Сагом. Это тип грамматики структуры фраз, в отличие от грамматики зависимостей, и непосредственный преемник грамматики обобщенной структуры фраз. HPSG опирается на другие области, такие как информатика (теория типов данных и представление знаний ) и использует понятие Фердинанда де Соссюра о знак . Он использует единый формализм и организован по модульному принципу, что делает его привлекательным для обработки естественного языка.

Грамматика HPSG включает в себя принципы и правила грамматики и лексикон, которые обычно не считаются принадлежащими к грамматике. Формализм основан на лексикализме. Это означает, что лексика - это больше, чем просто список статей; он сам по себе богато структурирован. Отдельные записи отмечены типами. Типы образуют иерархию. Ранние версии грамматики были очень лексикализованы с использованием нескольких грамматических правил (схем). Более поздние исследования имели тенденцию добавлять больше и более богатых правил, становясь больше похожими на строительную грамматику.

. Основной тип, с которым имеет дело HPSG, - это знак. Слова и фразы - это два разных подтипа знака. Слово имеет две особенности: [PHON] (звук, фонетическая форма) и [SYNSEM] (синтаксическая и семантическая информация), обе из которых разделены на подфункции. Знаки и правила формализованы как типизированные структуры функций.

Содержание
  • 1 Пример грамматики
  • 2 Реализации
  • 3 См. Также
  • 4 Ссылки
  • 5 Дополнительная литература
  • 6 Внешние ссылки
Пример грамматики

HPSG генерирует строки путем объединения знаков, которые определяются их расположением в иерархии типов и их внутренней структурой признаков, представленной матрицами значений атрибутов (ПТрМ). Функции принимают типы или списки типов в качестве своих значений, и эти значения, в свою очередь, могут иметь свою собственную структуру функций. Грамматические правила в значительной степени выражаются через знаки ограничений, накладываемые друг на друга. Структура признаков знака описывает его фонологические, синтаксические и семантические свойства. В общепринятых обозначениях АВМ пишутся с элементами в верхнем регистре, а типы в нижнем регистре курсивом. Пронумерованные индексы в AVM представляют идентичные значения токенов.

В упрощенном AVM для слова (в данном случае глагола, а не существительного, как в «приятных прогулках на выходные») «прогулки» ниже категориальная информация глагола (CAT) разделена на характеристики, которые опишите его (HEAD) и функции, которые описывают его аргументы (VALENCE).

AVM для прогулок

«Прогулки» - знак типового слова с головкой типового глагола. Как непереходный глагол, «прогулки» не имеет дополнения, но требует наличия подлежащего в виде существительного в единственном числе от третьего лица. Семантическое значение подлежащего (СОДЕРЖАНИЕ) коиндексируется с единственным аргументом глагола (человек, совершающий ходьбу). Следующая AVM для «она» представляет собой знак со значением SYNSEM, который может удовлетворить эти требования.

She-avm.png

Знаки типа фразы объединяются с одним или несколькими дочерними элементами и распространяют информацию вверх. Следующая AVM кодирует правило немедленного доминирования для head-subj-фразы, для которой требуются два дочерних элемента: головной дочерний элемент (глагол) и дочерний элемент без головы, который удовлетворяет ограничениям SUBJ глагола.

Head-subj -avm.png

Конечным результатом является знак с заголовком глагола, пустыми признаками подкатегории и фонологическим значением, которое упорядочивает двух дочерних элементов.

Хотя фактическая грамматика HPSG полностью состоит из структур признаков, лингвисты часто используют деревья для представления объединения знаков, где эквивалентный AVM был бы громоздким.

Head-subj-tree.png
Реализации

Были написаны различные парсеры , основанные на формализме HPSG, и в настоящее время изучаются возможности оптимизации. Пример системы, анализирующей предложения Немец. , предоставлен Свободным университетом Берлина. Кроме того, проект CoreGram Группы грамматики Свободного университета Берлина предоставляет грамматики с открытым исходным кодом, которые были реализованы в системе TRALE. В настоящее время существуют грамматики для немецкого, датского, китайского, мальтийского и персидского, которые имеют общий core и общедоступны.

Большие HPSG-грамматики для различных языков разрабатываются в рамках Deep Linguistic Processing with HPSG Initiative (DELPH-IN ). Грамматики с широким охватом английского, немецкого и японского доступны по лицензии с открытым исходным кодом. Эти грамматики могут использоваться с множеством взаимосовместимых анализаторов HPSG с открытым исходным кодом: LKB, PET, Ace и т. Д. Все они производят семантические представления в формате «Семантика минимальной рекурсии», MRS. Декларативный характер формализма HPSG означает, что эти вычислительные грамматики обычно могут использоваться как для синтаксического анализа, так и для генерации (создания поверхностных строк из семантических входных данных). Банки деревьев, также распространяемые DELPH-IN, используются для разработки и тестирования грамматик, а также для обучения моделей ранжирования для принятия решения о правдоподобных интерпретациях при синтаксическом анализе (или реализациях при создании).

Enju - это свободно доступный вероятностный анализатор HPSG с широким охватом для английского языка, разработанный лабораторией Tsujii в Токийском университете в Японии.

См. Также
Ссылки
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-05-23 04:10:15
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте