В теории формального языка контекстно-свободная грамматика (CFG ) - это формальная грамматика, в которой каждое производственное правило имеет формулу
, где - это одиночный нетерминальный символ, а - строка из терминалов и / или нетерминалы (может быть пустым). Формальная грамматика считается «контекстно-свободной», если ее производственные правила независимо от контекста нетерминала. Независимо от того, какие символы окружают его, единственный нетерминал в левой части всегда можно заменить правой частью. Это то, что отличает ее от контекстно-зависимой грамматики.
Формальная грамматика - это, по сути, набор правил, которые описывают все возможные строки на данном формальном языке. Правила производства - это простые замены. Например, первое правило на картинке:
заменяет с . Для данного нетер замены символа может быть несколько правил. Язык, сгенерированный грамматикой, - это набор всех строк терминальных символов, которые могут быть получены с помощью повторяющихся приложений правил из определенного конкретного нетерминального символа («начального символа»). Нетерминальные символы используются в процессе вывода.
Языки, созданные с помощью контекстно-свободных грамматик, известные как контекстно-свободные языки (CFL). Различные контекстно-свободные грамматики могут генерировать один и тот же контекстно-свободный язык. Важно отличать свойства языка (внутренние свойства) от конкретной грамматики (внешние свойства). Вопрос языкового равенства (генерируют ли две заданные контекстно-свободные грамматики один и тот же язык?) неразрешимый.
контекстные грамматики возникают в лингвистике, где они используются для определения системы. и предложения слов на естественном языке, и они были фактически изобретены лингвистом Ноамом Хомски для этой цели. Напротив, в информатике по мере роста использования рекурсивно определенных понятий они использовались все больше и больше. В приложениях ранних грамматики используются для описания структуры языков программирования. В новом приложении они используются в части Extensible Markup Language (XML), называемой Определение типа документа.
В лингвистике некоторые используют термин грамматика структуры фраз для обозначения контекстно-свободные грамматик, при этом грамматики структуры отличаются от грамматик зависимостей. В информатике популярным обозначением для контекстно-свободных грамматик является форма Бэкуса - Наура или BNF.
По крайней мере, со времен Панини лингвисты описывали грамматики с точки зрения их блочной структуры и описал, как предложения рекурсивно состоят из более мелких фраз и в конечном итоге, отдельных слов или словарных элементов. Существенным свойством этих блочных структур является то, что логические единицы не перекрываются. Например, предложение:
можно заключить в логические скобки (с логическими метасимволами [] ) следующим образом:
Контекстно-свободная грамматика обеспечивает простой и математически точный механизм для описания методов, с помощью фраз в некоторых естественных языках состоят из более мелких блоков, естественным образом фиксируя «блочную структуру» предложений. Его простота делает эту форму доступным для строгого математического исследования. Важные особенности синтаксиса естественного языка, такие как соглашение и ссылка, не являются существующими контекстно-независимой грамматикой, как основные рекурсивной структурой предложений, способом, которыми предложения вкладываются в другие предложения., и способ описи прилагаемых и наречий поглощаются существующими и глаголами, точно описанными.
Контекстно-свободные грамматики - это особая форма систем Semi-Thue, которые в своей общей форме восходят к работе Axel Thue.
Формализм контекстно-свободные грамматики были разработаны в середине 1950-х годов Ноамом Хомским, а также их классификация как особого типа формальной грамматики (которую он назвал фразами- структурные грамматики ). То, что Хомский называл грамматикой структуры структуры, теперь также известно, как грамматика избирательного округа, в грамматика избирательного округа отличается от грамматики зависимости. В рамках порождающая грамматики Хомского синтаксисного языка описательно-независимыми правилами в правилах естественного преобразования.
Блочная структура была введена в компьютерные языки программирования в рамках проекта Algol (1957–1960), который, как следствие, также содержал контекстно-свободную грамматику для опишите полученный синтаксис Алгол. Это стало стандартной функциейных функций, используемое в конкретных описаниях компьютерных языков, стало известно, как Бэкуса-Наура, в честь двух членов комитета по разработке языков Алгола. Аспект «блочной структуры», который фиксируется контекстно-свободной грамматикой, фундаментален для грамматики, терминов отождествления с контекстно-свободной грамматикой, особенно в информатике. Формальные ограничения, не охваченные грамматикой, в таком случае считаются «семантики» языка.
Контекстно-свободные грамматики достаточно просты, чтобы создать эффективные алгоритмы синтаксического анализа, которые для заданной строки определяют, можно ли и как она может быть сгенерирована из грамматики. Парсер Эрли является примером такого алгоритма, в то время как широко используемые парсеры LR и LL представляют собой более простые алгоритмы, которые имеют дело только с более ограниченными подмножествами контекста. бесплатные грамматики.
Контекстно-свободная грамматика G определяет кортежем 4- , где
A правило производства в R математически формализовано как пара , где - нетерминал, а - это строка число и / или терминалов; вместо использования нотации упорядоченной пары производственные правила обычно записываются с использованием использования стрелок с в качестве левой части и β в качестве правой. side: .
Допускается, чтобы β была пустой строкой, и в этом случае ее принято обозначать ε. Форма называется ε-продукцией.
Обычно перечисляют все правые части и того же слева на той же строке | (символ трубы ), чтобы разделить их. Правила и , следовательно, можно записать как . В этом случае и называются первая и вторая альтернативы соответственно.
Для любых строк , мы говорим, что u непосредственно дает v, записанное как , если с и такой, что и . Таким образом, v является результатом применения правил к u.
Для любых строк мы говорим, что u дает v или v получается из u, если существует положительное целое число k и строки такие, что . Это отношение обозначается или в некоторых учебниках. Если , соотношение держится. Другими словами, и - это рефлексивное транзитивное замыкание (позволяющее строку уступить само себя) и транзитивное замыкание (требующее хотя бы одного шага) из соответственно.
Язык грамматики - это множество
всех строк терминальных символов, производных от начального символа.
Язык L называется контекстно-свободным языком (CFL), если существует CFG G, такой что .
Недетерминированные выталкивающие автоматы точно распознают контекстно-свободные языки.
Грамматика , с продукцией
не зависит от контекста. Это не правильно, поскольку включает в себя ε-продукцию. Типичный вывод в этой грамматике:
Отсюда ясно, что . Язык не зависит от контекста, однако можно доказать, что он не обычный.
Если сложить продукцию
, получена контекстно-свободная грамматика для набора всех палиндромов в алфавите {a, b}.
Канонический пример контекста -свободная грамматика - это соответствие скобок, которое является представителем общего случая. Есть два терминальных символа "(" и ")" и один нетерминальный символ S. Правила производства:
Первое правило разрешает умножение символа S; второе правило позволяет заключить символ S в соответствующие круглые скобки; и третье правило завершает рекурсию.
Второй канонический пример - это два разных типа совпадающих вложенных круглых скобок, описанных формулировками:
с символами клемм [] () и нетерминальный S.
В этой грамматике может быть получена следующая последовательность:
В контекстно-свободной грамматике мы можем объединить символы в пары, как мы это делаем с скобками. Самый простой пример:
Эта грамматика генерирует язык , что не является обычным (согласно лемме о прокачке для обычных языков ).
Специальный символ ε обозначает пустую строку. Изменив указанную выше грамматику на
, мы получим грамматику, порождающую язык вместо этого. Он отличается только тем, что он содержит пустую строку, а исходная грамматика - нет.
Контекстно-свободная грамматика для языка, состоящая из всех строк над {a, b}, различное количество символов a и b:
нетерминал T может генерировать все строки с большим количеством a Здесь, чем b, нетерминал U генерирует все строки с большим количеством b, чем a, а нетерминал V генерирует все строки с равным источником a и b. Отсутствие альтернативных правил в T и U не ограничивает язык грамматики.
Другой пример нерегулярного языка: . Он не зависит от контекста, так как может быть сгенерирован следующей контекстно-свободной грамматикой:
правила формирования терминов и формул формальной логики соответствуют определению контекстно-свободной грамматики, за исключением того, что набор символов может быть бесконечным и может быть более одного начального символ.
В отличие языков от правильно сформированных вложенных скобок и квадратных скобок в предыдущем разделе, не существует контекстно-независимой грамматики для генерации всех последовательностей различных типов круглых скобок, каждая из которых сбалансирована по отдельности без учета другой, где два типа не обязательно вкладываются друг в друга, например:
или
Тот факт, что этот язык не является контекстно-свободным, можно доказать с помощью леммы о накачке для контекста -свободные языки и доказательство противного, учитывая, что все слова вида должен принадлежать языку. Вместо этого этот язык принадлежит к более общему классу и может быть описан конъюнктивной грамматикой, которая, в свою очередь, также включает другие неконтекстно-свободные языки, такие как язык всех слов в форме .
Каждые обычная грамматика контекстно-свободна, но не все контекстно-свободные грамматики регулярными. Однако следующая контекстно-свободная грамматика также является регулярной.
Здесь терминалами являются a и b, а единственным нетерминалом является S. Описанный язык представляет собой все непустые строки s и s, которые заканчиваются на .
Эта грамматика is обычный : ни одно правило не имеет более одного нетерминала в правой части, и каждый из этих нетерминалов находится на одном конце правой части.
Каждая регулярная грамматика напрямую соответствует недетерминированному конечному автомату, поэтому мы знаем, что это регулярный язык.
Используя символы вертикальной черты, грамматику выше можно описать более кратко следующим образом:
Производные строки для грамматики - это последовательность приложений правил грамматики, которые преобразуют начальный символ в строку. Вывод доказывает, что строка принадлежит языку грамматики.
Деривация полностью определяется путем задания для каждого шага:
Для Для ясности обычно дается и промежуточная струна.
Например, с грамматикой:
строка
может быть получено из начального символа S следующим образом:
Часто используется стратегия, которая детерминированно выбирает следующий нетерминал для перезаписи:
При такой стратегии вывод полностью соответствует применяемым правилам. Например, одно крайнее левое происхождение той же строки:
, которое можно резюмировать как
Один крайний правый вывод:
, можно обобщить как
Различие между крайним левым выводом и крайним правым выводом важно, потому что в большинстве случаев синтаксических анализаторов преобразование выполняется путем предоставления фрагмента кода для ev простое грамматическое правило, которое выполняется всякий раз, когда применяется правило. Следовательно, важно знать, определяет ли анализатор крайнее левое или крайнее правое производное, поскольку это определяет порядок, в котором будут производиться фрагменты кода. См. Для примера анализаторы LL и анализаторы LR.
Вывод также в некотором смысле накладывает иерархическую структуру на выводимую строку. Например, если строка «1 + 1 + a» получена в соответствии с крайним левым производным, описанным выше, структуре строки будет такой:
где {...} S указывает подстроку, признанную принадлежащей S. Эту иерархию также можно рассматривать как дерево:
Это дерево называется деревом синтаксического анализа или «конкретным синтаксическим деревом» строки, в отличие от абстрактного синтаксического дерева . В этом случае представленные крайний левый и крайний правый производные определяют одно и то же дерево синтаксического анализа; однако есть еще одно правое происхождение той же строки
, который установить с другой структурой
и другое дерево синтаксического анализа:
Обратите внимание, что оба дерева синтаксического анализа могут быть получены как крайним левым, так и крайним правым производным. Например, последнее дерево может быть получено с помощью самого левого вывода следующим образом:
Если строка на языке грамматики имеет более одного дерева синтаксического анализа, то грамматика называется неоднозначной грамматикой. Такие грамматики обычно трудно разобрать, потому что синтаксический анализатор не всегда может решить, какое грамматическое правило должно применить. Обычно двусмысленность является особенностью грамматики, а не языка, и можно найти однозначную грамматику, которая порождает тот же контекстно-свободный язык. Однако есть языки, которые могут быть созданы только с помощью неоднозначной грамматики; такие языки называются неоднозначными по своей природе языками.
Вот контекстно-свободная грамматика для синтаксически правильных инфиксных алгебраических выражений в числах x, y и z:
Эта грамматика может, например, генерировать систему
следующим образом:
Обратите внимание, что многие выбирали, какая перезапись будет следующей следующей. Эти варианты выглядят довольно произвольно. На самом деле это так, в том смысле, что окончательно сгенерированная строка всегда одна и та же. Например, вторая и третья перезапись
может быть выполнен в обратном порядке:
Кроме того, было сделано много вариантов, какое правило применять к каждому выбранному S. Изменение сделанных выборов, а не только порядок, в котором они были сделаны, обычно влияет на то, какая оконечная строка выходит на конец.
Давайте рассмотрим это подробнее. Рассмотрим дерево синтаксического анализа этого вывода:
Начало с вершины, шаг за шагом, S в дереве раскрывается до тех пор, пока не останутся нерасширенные Ses (нетерминалы). Выбор другого порядка раскрытия к другому производному, но к тому же дереву синтаксического анализа. Дерево синтаксического анализа изменится только в том случае, если мы выберем другое правило для применения в некоторой позиции в дереве.
Но может ли другое дерево синтаксического анализа по-прежнему создать ту же самую терминальную строку, которая в данном случае равна (x + y) * x - z * y / (x + x)? Да, для данной грамматики это возможно. Грамматики с этим своим именем называются неоднозначными.
, x + y * z можно получить с помощью этих двух разных деревьев синтаксического анализа:
Однако язык, описываемый этой грамматикой, не является неоднозначным по своей сути: альтернатива, для языка может быть дана однозначная грамматика, например:
снова выбирая S в начальном символе. Эта альтернативная грамматика создаст x + y * z с деревом синтаксического анализа, аналогичным левому выше, т.е. неявно предполагая ассоциацию (x + y) * z, которая не соответствует стандартному порядку операций. Могут быть построены более сложные, однозначные и контекстно-свободные грамматики, которые создают деревья синтаксического анализа, подчиняются всем желаемым правилам приоритета операторов и ассоциативности.
имеет контекстно-свободную грамматика без ε-продукции эквивалентную грамматику в нормальной форме Хомского и грамматику в нормальной форме Грейбаха. «Эквивалентность» здесь означает, что две грамматики генерируют один и тот же язык.
Особенно простая форма практики правил в грамматиках нормальной формы Хомского имеет как теоретическое, так и практическое значение. Например, с учетом контекстно-свободной грамматики можно использовать нормальную форму Хомского для построения алгоритма с полиномиальным временем, который определяет, находится ли данная строка на языке, представленном этой грамматикой, или нет (Алгоритм CYK ).
Контекстно-свободные языки закрыты для различных операций, то есть, если языки K и L контекстно-независимы, то это результат следующих операций:
Они не замкнуты при общем пересечении (следовательно, ни в разделе дополнение ), и установить разницу.
Ниже приведены некоторые разрешимые проблемы, соответствующие контекстно-грамматик.
Проблема синтаксического анализа, проверяющая, принадлежит ли данное слово языку, заданному контекстно-свободной грамматике, решается с помощью одного из общих алгоритмов синтаксического анализа:
контекстно-свободный синтаксический анализ для нормальный анализ Хомского формы грамматик была провед Лесли Г. Валиант как пр иводимая к логическому матричному умножению, таким образом наследуя верхнюю границу сложности O (n). И наоборот, Лиллиан Ле e показал, что умножение логической матрицы O (n) сводится к синтаксическому анализу CFG O (n), тем самым устанавливая некоторую нижнюю границу для последнего.
Пример грамматика: | |||
---|---|---|---|
S → Bb | Cc | Ee | |||
B → Bb | b | |||
C → C | |||
D → Bd | CD | d | |||
E → Ee |
Нетерминальный символ называется продуктивным или генерирующим, если существует производное для некоторой строки терминальных символов. называется достижимым, если есть производное для некоторых строк нетерминальных и конечных символов от начального символа. называется бесполезным, если он недоступен или непродуктивен. называется допускающим значением NULL, если есть производное . Правило называется ε-продукцией. Производная называется циклом.
Известно, что алгоритмы исключают из заданной грамматики без изменений ее сгенерированного языка
В частности, альтернатива, содержащая бесполезный нетерминальный символ, может быть удалена из правой части правил. Такие правила и альтернативы называются бесполезными.
В изображенном примере грамматики нетерминал D недоступен, а E непродуктивно, а C → C вызывает цикл. Следовательно, пропуск последних трех правил не меняет язык, сгенерированный грамматикой, равно как и пропуск альтернатив «| Cc | Ee» в правой части правила для S.
Контекст- свободная грамматика называется правильной, если в ней нет ни бесполезных символов, ни ε-продукций, ни циклов. Комбинируя вышеуказанные алгоритмы, любую контекстно-свободную грамматику, не генерирующую ε, можно преобразовать в слабо эквивалентную правильную.
Можно решить, является ли данная грамматика обычной грамматикой, а также является ли она LL (k) грамматика для данного k≥0. Если k не задан, последняя проблема неразрешима.
Для контекстно-свободного языка не разрешимо, является ли он регулярным или языком LL (k) для данного k.
Существуют алгоритмы, позволяющие определить, является ли язык данного контекстно-свободного языка пустым, а также конечным.
Некоторые вопросы, неразрешимые для более широких классов грамматик, становятся разрешимыми для контекстно-свободных грамматик; например, проблема пустоты (генерирует ли грамматика какие-либо терминальные строки вообще) неразрешима для контекстно-зависимых грамматик, но разрешима для контекстно-свободных грамматик.
Однако многие проблемы неразрешимы даже для контекстно-свободных грамматик. Примеры:
С учетом CFG, генерирует ли он язык всех строк по алфавиту терминальных символов, используемых в его правилах?
Можно продемонстрировать сокращение к этой проблеме из хорошо известной неразрешимой проблемы определения того, принимает ли машина Тьюринга конкретный ввод (проблема остановки ). При редукции используется концепция истории вычислений, строки, описывающей все вычисления на машине Тьюринга. Можно построить CFG, который генерирует все строки, которые не принимают истории вычислений для конкретной машины Тьюринга на конкретном входе, и, таким образом, он будет принимать все строки, только если машина не принимает этот ввод.
Генерируют ли два CFG один и тот же язык?
Неразрешимость этой проблемы является даже прямым следствием предыдущей: невозможно решить эквивалентен ли CFG тривиальному CFG, определяющему язык всех строк.
Может ли первый из двух CFG сгенерировать все строки, которые могут сгенерировать второй?
Если эта проблема была разрешима, то можно было бы решить языковое равенство также: два CFG G1 и G2 генерируют один и тот же язык, если L (G1) подмножеством L (G2), а L (G2) является подмножеством L (G1).
Используя теорему Грейбаха, можно показать, что две следующие проблемы неразрешимы:
Имеет ли CFG неоднозначность ?
Неразрешимость этой следует из того факта, что, если бы существовал алгоритм определения неоднозначности, проблема почтовой корреспонденции могла бы быть решена, что заведомо неразрешимым.
Имеются ли для двух CFG какие-либо строки, производные от грамматик?
Если бы эта проблема была разрешимой, то неразрешимая проблема почтовой корреспонденции тоже могла быть решена: данные строки над некоторыми алфавитом , пусть грамматика состоят из правил
где обозначает перевернутую строку и не встречается среди ; и пусть грамматика состоит из правил
Тогда задача Поста, заданная как имеет решение тогда и только тогда, когда и совместно использовать производную строку.
Очевидный способ расширения контекстно-свободной грамматики - разрешить нетерминалам аргументы, значения которых передаются в правилах. Это позволяет естественным языком выражать такие особенности естественного языка, как соглашение и ссылка, а также аналоги языков программирования, такие как правильное использование и определение индикаторов. Например. Теперь мы можем легко выразить, что в английских предложениях через переводее и глагол должны совпасть по совпадению. В информатике этого подхода включает аффиксные грамматики, атрибутные грамматики, индексированные грамматики и двухуровневые грамматики Ван Вийнгаардена. Подобные расширения существуют в лингвистике.
расширенная контекстно-свободная грамматика (или обычная правосторонняя грамматика ) - это права грамматика, в которой часть методов правил может быть регулярное выражение над терминалами и нетерминалами грамматики. Расширенные контекстно-свободные грамматики точно описывают контекстно-свободные языки.
Другое расширение - позволяет дополнительным терминальным символам появляться в левой части правил, ограничивая их применение. Это формализм контекстно-зависимых грамматик.
Существует ряд важных подклассов контекстно-свободных грамматик:
LR-синтаксический анализ расширяет LL-синтаксический анализ для поддержки больший набор грамматик; в свою очередь, обобщенный анализ LR расширяет анализ LR для поддержки произвольных произвольно-свободных грамматик. В грамматиках LL и LR он, по сути, выполняет анализ LL и LR, соответственно, при этом он настолько эффективен, насколько и можно ожидать. Хотя синтаксический анализ GLR был разработан в 1980-х годах, многие определения нового языка и генераторы синтаксического анализатора продолжают основываться на анализе LL, LALR или LR вплоть до наших дней.
Хомский изначально надеялся преодолеть ограничения контекстно-свободно грамматик, добавив правила преобразования.
Такие правила - еще один стандартный в прием традиционной лингвистике; например пассивизация на английском языке. Большая часть порожда грамматики была посвящена поиску способов усовершенствования механизмов грамматической структуры структуры и правил преобразования таким образом, чтобы можно было выразить именно такие вещи, которые позволяют естественный язык. Разрешение произвольных преобразований не обеспечивает этой цели: они слишком эффективны, являются полным Тьюрингу, если не добавлены существенные ограничения (например, нет преобразований, которые вводят, а перезаписывают символы бесконтекстно).
Общая позиция Хомского относительно неконтекстной свободы естественного языка с тех пор сохраняется, хотя его примеры неадекватности контекстно-свободно грамматик с точки зрения их слабой порождающей способности были позже опровергнуты. Джеральд Газдар и Джеффри Пуллум утверждали, что, несмотря на несколько неконтекстно-свободных конструкций в естественном языке (например, кросс-последовательные зависимости в швейцарском немецком и редупликация в Bambara ), подавляющее большинство форм естественного языка действительно контекстно-независимы.