В компьютерной лингвистике термин умеренно контекстно-зависимый грамматический формализм относится к нескольким грамматическим формализмам, которые были разработаны с целью предоставить адекватное описание синтаксической структуры естественного языка.
Все мягко формализм контекстно-зависимой грамматики определяет класс умеренно контекстно-зависимых грамматик (грамматик, которые могут быть указаны в формализме) и, следовательно, также класс слабо контекстно-зависимых языков ( формальные языки, порожденные грамматиками).
К 1985 году несколько исследователей в дескриптивной и математической лингвистике представили доказательства против гипотезы о том, что синтаксическая структура естественного языка может быть адекватно описана контекстно-независимыми грамматиками. В то же время переход на следующий уровень иерархии Хомского, к контекстно-зависимым грамматикам, оказался как ненужным, так и нежелательным. Пытаясь определить точную формальную мощность, необходимую для адекватного описания синтаксиса естественного языка, Аравинд Джоши охарактеризовал «грамматики (и связанные с ними языки ), которые лишь немного сильнее, чем контекст- бесплатные грамматики (контекстно-свободные языки) ». Он назвал эти грамматики умеренно контекстно-зависимыми грамматиками, а связанные языки - умеренно контекстно-зависимыми языками.
Характеристика Джоши умеренно зависимых от контекста грамматик была смещена в сторону его работы над грамматикой, примыкающей к дереву (TAG). Однако вместе со своими учениками Виджаем Шанкером и Дэвидом Вейром Джоши вскоре обнаружил, что ТАГи эквивалентны в терминах сгенерированных строковых языков независимо введенной грамматике (HG). За этим последовали два аналогичных результата эквивалентности для линейной индексированной грамматики (LIG) и комбинаторной категориальной грамматики (CCG), которые показали, что понятие умеренно контекстной чувствительности является очень общим один и не привязанный к конкретному формализму.
TAG-эквивалентные формализмы были обобщены введением линейных контекстно-свободных систем перезаписи (LCFRS). Эти грамматики определяют бесконечную иерархию строковых языков между контекстно-независимыми и контекстно-зависимыми языками, причем языки, генерируемые TAG-эквивалентными формализмами, находятся на нижнем конце иерархии. Независимо от LCFRS и почти одновременно с ним Hiroyuki Seki et al. предложил практически идентичный формализм множественной контекстно-свободной грамматики (MCFG). LCFRS / MCFG иногда рассматривается как наиболее общий формализм для определения грамматик, слегка зависимых от контекста. Однако несколько авторов отметили, что некоторые характерные свойства формализмов, эквивалентных TAG, не сохраняются в LCFRS / MCFG, и что существуют языки, которые обладают характерными свойствами умеренной контекстной чувствительности, но не генерируются LCFRS / MCFG.
В последние годы наблюдается повышенный интерес к ограниченному классу хорошо вложенных линейных систем бесконтекстного переписывания / множественных контекстно-свободных грамматик, которые определяют класс грамматик, который должным образом включает в себя формализмы, эквивалентные TAG, но правильно включены в неограниченную иерархию LCFRS / MCFG.
Несмотря на значительный объем работы по этому вопросу, общепринятого формального определения умеренной контекстной чувствительности не существует.
Согласно исходной характеристике Джоши, класс умеренно зависимых от контекста грамматик должен иметь следующие свойства:
В дополнение к этому, понятно, что каждый класс слегка контекстно-зависимых грамматик должен иметь возможность генерировать все контекстно-свободные языки.
Характеристика Джоши не является формальным определением. Он отмечает:
Это лишь приблизительная характеристика, потому что условия 1 и 3 зависят от грамматик, а условие 2 зависит от языков; кроме того, условие 1 необходимо определить гораздо точнее, чем я делал до сих пор.
Другие авторы предложили альтернативные характеристики умеренной контекстной чувствительности, некоторые из которых принимают форму формальных определений. Например, Лаура Каллмейер придерживается точки зрения, согласно которой умеренная контекстная чувствительность должна определяться как свойство классов языков, а не, как в характеристике Джоши, классов грамматик. Такое определение, основанное на языке, приводит к другому понятию концепции, чем у Джоши.
Термин межсерийные зависимости относится к определенным характерным шаблонам порядка слов, в частности к шаблонам глагол – аргумент, наблюдаемым в придаточных предложениях на голландском языке. и швейцарский немецкий. Это те самые шаблоны, которые можно использовать в качестве аргумента против контекстной свободы естественного языка; таким образом, требование умеренно контекстно-зависимых грамматик для моделирования межсерийных зависимостей означает, что эти грамматики должны быть более мощными, чем контекстно-свободные.
Каллмейер определяет способность моделировать кросс-последовательные зависимости с возможностью создания языка копирования
и его обобщения на две или более копий w с точностью до некоторой границы. Эти языки не являются контекстно-свободными, что можно показать с помощью леммы перекачки.
Формальный язык имеет постоянный рост, если каждая строка в языке длиннее следующих более коротких строк. не более чем на (зависящую от языка) константу. Языки, которые нарушают это свойство, часто считаются недоступными для человека, хотя некоторые авторы утверждают, что некоторые явления в естественном языке действительно демонстрируют рост, который не может быть ограничен константой.
Наиболее умеренно контекстно-зависимые грамматические формализмы (в частности, LCFRS / MCFG) на самом деле удовлетворяют более сильному свойству, чем постоянный рост, называемому полулинейностью. Язык является полулинейным, если его изображение при отображении Париха (отображение, которое "забывает" относительное положение символов в строке, фактически рассматривая его как мешок слов) является обычным языком. Все полулинейные языки имеют постоянный рост, но не каждый язык с постоянным ростом является полулинейным.
Грамматический формализм имеет полиномиальный синтаксический анализ, если его проблема принадлежности может быть решена в детерминированное полиномиальное время. Задача состоит в том, чтобы решить, учитывая грамматику G, записанную в формализме и строку w, генерируется ли w G, то есть является ли w "грамматическим" согласно G. Временная сложность этой проблемы измеряется в терминах комбинированного размера G и w.
С точки зрения умеренной контекстной чувствительности как свойства классов языков, полиномиальный синтаксический анализ относится к проблеме языковой принадлежности. Это проблема решить для фиксированного языка L, принадлежит ли данная строка w к L. Временная сложность этой проблемы измеряется длиной строки w; он игнорирует вопрос, как определяется L.
Обратите внимание, что оба понимания полиномиального синтаксического анализа являются идеализацией в том смысле, что для практических приложений интересует не только вопрос «да / нет», является ли предложение грамматическим, но и синтаксическая структура, которую грамматика приписывает приговор.
За прошедшие годы было введено большое количество грамматических формализмов, удовлетворяющих некоторым или всем характерным свойствам, выдвинутым Джоши. Некоторые из них имеют альтернативные автоматные характеристики, которые не обсуждаются в этой статье; например, языки, созданные с помощью грамматики, примыкающей к дереву, могут быть охарактеризованы встроенными автоматами выталкивания.
Линейное бесконтекстное переписывание Системы / множественные контекстно-свободные грамматики образуют двумерную иерархию порождающей способности по двум параметрам, специфичным для грамматики, называемым разветвлением и рангом. Точнее, языки, сгенерированные LCFRS / MCFG с разветвлением f ≥ 1 и рангом r ≥ 3, правильно включены в класс языков, генерируемых LCFRS / MCFG с рангом r + 1 и разветвлением f, а также класс языков, сгенерированный LCFRS / MCFG, с рангом r и разветвлением f + 1. При наличии хорошей вложенности эта иерархия схлопывается до одномерной иерархии по отношению к разветвлению; Это связано с тем, что каждый хорошо вложенный LCFRS / MCFG может быть преобразован в эквивалентный хорошо вложенный LCFRS / MCFG с тем же разветвлением и рангом 2. В иерархии LCFRS / MCFG контекстно-свободные языки могут быть охарактеризованы грамматиками с разветвлением 1; для этого разветвления нет разницы между общей и хорошо вложенной грамматикой. TAG-эквивалентные формализмы могут быть охарактеризованы как хорошо вложенные LCFRS / MCFG разветвления 2.