В информатике, расширенная форма Бэкуса – Наура (EB NF ) - это семейство метасинтаксических нотаций, любую из которых можно использовать для выражения контекстно-свободной грамматики. EBNF используется для формального описания формального языка, такого как компьютерный язык программирования. Они являются расширениями основной формы Бэкуса – Наура (BNF) метасинтаксической нотации.
Самый ранний EBNF был разработан Никлаусом Виртом с включением некоторых концепций (с другим синтаксисом и обозначениями) из синтаксической нотации Вирта. Однако используются многие варианты EBNF. Международная организация по стандартизации приняла стандарт EBNF (ISO / IEC 14977 ) в 1996 году. Однако, по словам Зайцева, этот стандарт «только добавил еще три диалекта к хаосу» и, отметив его отсутствие успеха, также отмечает, что ISO EBNF даже не используется во всех стандартах ISO. Уилер выступает против использования стандарта ISO при использовании EBNF и рекомендует рассмотреть альтернативные нотации EBNF, например, из W3C Extensible Markup Language (XML) 1.0 (пятое издание).
В этой статье используется EBNF, как указано в ISO для примеров, применимых ко всем EBNF. В других вариантах EBNF используются несколько иные синтаксические соглашения.
EBNF - это код, который выражает грамматику формального языка. EBNF состоит из оконечных символов и правил нетерминального производства, которые являются ограничениями, определяющими, как оконечные символы могут быть объединены в допустимую последовательность. Примеры терминальных символов включают буквенно-цифровые символы, знаки препинания и символы пробела.
EBNF определяет правила производства, в которых соответственно назначаются последовательности символов. на нетерминальную цифру :
, исключая ноль = "1" | «2» | «3» | «4» | «5» | «6» | «7» | «8» | «9»; цифра = "0" | цифра без нуля;
Это производственное правило определяет нетерминальную цифру, которая находится слева от присвоения. Вертикальная черта представляет собой альтернативу, а символы терминала заключены в кавычки, за которыми следует точка с запятой в качестве символа завершения. Следовательно, цифра - это 0 или цифра, исключая ноль, которая может быть 1, 2 или 3 и так далее до 9.
Производственное правило может также включать последовательность терминалов или нетерминалов, каждый из которых разделен запятой:
двенадцать = «1», «2»; двести один = «2», «0», «1»; триста двенадцать = «3», двенадцать; двенадцать тысяч двести один = двенадцать, двести один;
Выражения, которые можно опускать или повторять, можно представить в фигурных скобках {...}:
натуральное число = цифра, исключая ноль, {цифра};
В этом случае строки 1, 2,..., 10,..., 10000,... являются правильными выражениями. Чтобы представить это, все, что указано в фигурных скобках, может повторяться произвольно часто, в том числе и вовсе не повторяться.
Опция может быть представлена в квадратных скобках [...]. То есть все, что указано в квадратных скобках, может присутствовать только один раз или не присутствовать вовсе:
integer = "0" | [ "-" ], натуральное число ;
Следовательно, целое число представляет собой ноль (0) или натуральное число, которому может предшествовать необязательный знак минус.
EBNF также предоставляет, среди прочего вещи, синтаксис для описания повторов (заданного числа раз), исключения некоторой части продукции и вставки комментариев в грамматику EBNF.
Ниже представлен предложенный стандарт ISO / IEC 14977, разработанный RS Scowen, страница 7, таблица 1.
Использование | Обозначение |
---|---|
определение | = |
конкатенация | , |
завершение | ; |
чередование | | |
необязательное | [...] |
повторение | {...} |
группировка | (...) |
строка терминала | "..." |
строка терминала | '...' |
комментарий | (*... *) |
специальная последовательность | ?...? |
исключение | - |
Даже EBNF можно описать с помощью EBNF. Рассмотрим схему грамматики ниже:
letter = "A" | «Б» | «С» | «Д» | "E" | "F" | "G" | "H" | «Я» | "J" | «К» | "L" | «М» | «N» | «О» | «П» | «Q» | "R" | "S" | «Т» | "U" | "V" | "W" | «Х» | «Y» | "Z" | "а" | "б" | "с" | "д" | "е" | "е" | "г" | "h" | "я" | "j" | "к" | "л" | "м" | «п» | "о" | "р" | "q" | "г" | "с" | "т" | "u" | "v" | "ш" | «х» | "у" | "z"; цифра = "0" | «1» | «2» | «3» | «4» | «5» | «6» | «7» | «8» | «9»; символ = "[" | "]" | "{" | "}" | "(" | ")" | «<" | ">» | "'" | '"' |" = "|" | "|". "|", "|"; "; символ = буква | цифра | символ |" _ "; идентификатор = буква, {буква | цифра |" _ "}; терминал = "'", символ, {символ}, "'" | '"', символ, {символ}, '"'; lhs = идентификатор; rhs = идентификатор | терминал | "[", rhs, "]" | "{", rhs, "}" | "(", rhs, ")" | rhs, "|", rhs | rhs, ",", rhs; rule = lhs, "=", rhs, ";"; grammar = {rule};
A Паскаль -подобный язык программирования, который допускает только назначения, может быть определен в EBNF следующим образом:
(* простой синтаксис программы в EBNF - Википедия *) program = 'PROGRAM', белое_пространство, идентификатор, белое_пространство, 'НАЧАЛО', белое_пространство, {присвоение, ";", белое_пространство}, 'КОНЕЦ.' ; идентификатор = алфавитный_символ, {алфавитный_символ | цифра}; число = ["-"], цифра, {цифра}; строка = '"', {все_символы - '"'}, '"'; присвоение = идентификатор, ": =", (число | идентификатор | строка); alphabetic_character = "A" | «Б» | «С» | «Д» | "E" | "F" | "G" | "H" | «Я» | "J" | «К» | "L" | «М» | «N» | «О» | «П» | «Q» | "R" | "S" | «Т» | "U" | "V" | "W" | «Х» | «Y» | «Z»; цифра = "0" | «1» | «2» | «3» | «4» | «5» | «6» | «7» | «8» | «9»; white_space =? символы white_space? ; all_characters =? все видимые персонажи? ;
Тогда синтаксически правильной программой будет:
ПРОГРАММА DEMO1 BEGIN A: = 3; B: = 45; H: = - 100023; С: = А; D123: = B34A; БАБУН: = ЖИРАФ; ТЕКСТ: = "Привет, мир!"; КОНЕЦ.
Язык можно легко расширить с помощью потоков управления, арифметических выражений и инструкций ввода / вывода. Затем будет разработан небольшой удобный язык программирования.
Любая грамматика, определенная в EBNF, также может быть представлена в BNF, хотя представления в последнем обычно более длинные. Например, варианты и повторения не могут быть напрямую выражены в BNF и требуют использования промежуточного правила или альтернативного производства, определенного как «ничто», либо как необязательное производство для варианта, либо как повторное производство самого себя, рекурсивно, для повторения. Те же конструкции все еще можно использовать в EBNF.
BNF использует символы (<
, >
, |
, :: =
) для себя, но не включает кавычки вокруг терминальных строк. Это предотвращает использование этих символов в языках и требует специального символа для пустой строки. В EBNF клеммы строго заключены в кавычки ("
…"
или '
…'
). Угловые скобки («<
…>
») для нетерминалов можно опустить.
Синтаксис BNF может представлять правило только в одной строке, тогда как в EBNF символ завершения, точка с запятой «;
» обозначает конец правила.
Кроме того, EBNF включает механизмы для улучшений, определения количества повторов, исключения альтернатив, комментариев и т. Д.
* символ-повторения - символ исключения, символ конкатенации | определение-разделитель-символ = определяющий-символ; символ-терминатор. символ-терминатор
(* начальный-символ-комментария конечный-символ-комментария *) 'первая-кавычка-символ первая-кавычка-символ' ( начальная группа-символ конечная-группа-символ) [начальный-параметр-символ конечный-параметр-символ] {начальный-повторяющийся-символ конечный-повторяющийся-символ}? символ специальной последовательности символ специальной последовательности? "второй символ кавычек второй символ кавычек"Первый символ кавычек - это апостроф, как определено в ISO / IEC 646: 1991, то есть Unicode U + 0027 (
'
); шрифт, используемый в ISO / IEC 14977: 1996 (E), очень похож на острый, Unicode U + 00B4 (´
), поэтому иногда возникает путаница. Однако стандарт ISO Extended BNF использует ISO / IEC 646: 1991, «7-битный кодированный набор символов ISO для обмена информацией» в качестве нормативной ссылки и не упоминает какие-либо другие наборы символов, поэтому формально нет никакой путаницы с Символы Юникода вне 7-битного диапазона ASCII.В качестве примеров следующие правила синтаксиса иллюстрируют возможности для выражения повторения:
aa = "A"; bb = 3 * aa, «В»; cc = 3 * [aa], "C"; дд = {аа}, «Д»; ее = аа, {аа}, «Е»; ff = 3 * aa, 3 * [aa], «F»; gg = {3 * aa}, "G";
Терминальные строки, определенные этими правилами, следующие:
aa: A bb: AAAB cc: C AC AAC AAAC dd: D AD AAD AAAD AAAAD и т. Д. Ee: AE AAE AAAE AAAAE AAAAAE и т. Д. Ff : AAAF AAAAF AAAAAF AAAAAAF gg: G AAAG AAAAAAG и т. Д.
Согласно стандарту ISO 14977 EBNF должен быть расширяемым, и упоминаются два средства. Первая - это часть грамматики EBNF, особая последовательность, которая представляет собой произвольный текст, заключенный в вопросительные знаки. Интерпретация текста внутри специальной последовательности выходит за рамки стандарта EBNF. Например, пробел можно определить по следующему правилу:
пробел =? 32-й символ ASCII?;
Вторая возможность для расширения заключается в том, что скобки в EBNF нельзя ставить рядом с идентификаторами (они должны быть связаны с ними). Допустимое значение EBNF:
something = foo, (bar);
Следующее недопустимо EBNF:
something = foo (bar);
Следовательно, расширение EBNF может использовать эту нотацию. Например, в грамматике Лиспа приложение функции может быть определено следующим правилом:
приложение функции = список (символ, {выражение});