В информатике анализатор LL (слева направо, крайний левый деривация) - это нисходящий синтаксический анализатор для подмножества контекстно-свободных языков. Он анализирует ввод от L вправо, выполняя Lкрайний вывод предложения.
Анализатор LL называется анализатором LL (k), если он использует k токенов из lookahead при синтаксическом анализе предложения. Грамматика называется LL (k) грамматикой, если из нее можно построить анализатор LL (k). Формальный язык называется языком LL (k), если он имеет грамматику LL (k). Набор языков LL (k) надлежащим образом содержится в наборе языков LL (k + 1) для каждого k ≥ 0. Следствием этого является то, что не все контекстно-свободные языки могут быть распознаны анализатором LL (k)..
LL-синтаксический анализатор называется LL-регулярным, если он анализирует в точности класс LL-регулярных языков. LLR-грамматики являются правильным надмножеством LL (k) грамматик для любого k. Для каждой грамматики LLR существует анализатор LLR, который анализирует грамматику за линейное время.
Два номенклатурных типа анализатора выбросов: LL (*) и LL (конечный). Парсер называется LL (*) / LL (конечный), если он использует стратегию синтаксического анализа LL (*) / LL (конечный). Анализаторы LL (*) и LL (конечные) функционально более похожи на синтаксические анализаторы PEG. Анализатор LL (конечный) может анализировать произвольную грамматику LL (k) оптимальным образом с точки зрения количества предварительных и предварительных сравнений. Класс грамматик, анализируемых стратегией LL (*), включает некоторые контекстно-зависимые языки из-за использования синтаксических и семантических предикатов и не был идентифицирован. Было высказано предположение, что парсеры LL (*) лучше рассматривать как парсеры TDPL. Вопреки распространенному заблуждению, парсеры LL (*) не являются LLR в целом, и конструкция гарантирует, что они будут работать хуже в среднем (суперлинейное по отношению к линейному времени) и намного хуже в худшем случае (экспоненциальное по отношению к линейному времени).
LL-грамматики, в частности LL (1) грамматики, представляют большой практический интерес, поскольку синтаксические анализаторы для этих грамматик легко конструируются, а многие компьютерные языки предназначены для LL (1) Именно по этой причине. Парсеры LL - это анализаторы на основе таблиц, похожие на парсеры LR. Грамматики LL также могут быть проанализированы с помощью анализаторов рекурсивного спуска. Согласно Уэйту и Гусу (1984), грамматики LL (k) были введены Стернсом и Льюисом (1969).
Для данной контекстно-свободной грамматики анализатор пытается найти крайнее левое производное. Дан пример грамматики :
крайний левый вывод для равно:
Как правило, при выборе правила для раскрытия крайнего левого нетерминала существует несколько возможностей. На шаге 2 предыдущего примера синтаксический анализатор должен выбрать, применять ли правило 2 или правило 3:
Чтобы быть эффективным, синтаксический анализатор должен иметь возможность по возможности делайте этот выбор детерминированно, без возврата. Для некоторых грамматик это можно сделать, просматривая непрочитанный ввод (без чтения). В нашем примере, если синтаксический анализатор знает, что следующим непрочитанным символом является , единственное правильное правило, которое можно использовать, - 2.
Как правило, синтаксический анализатор может смотреть вперед на символы . Однако с учетом грамматики проблема определения, существует ли синтаксический анализатор для некоторого , который распознает, что это неразрешимо. Для каждого существует язык, который не может быть распознан с помощью , но может быть с помощью .
Мы можем использовать приведенный выше анализ, чтобы дать следующее формальное определение:
Пусть быть контекстно-свободной грамматикой и . Мы говорим, что равно , если и включено ly, если для любых двух крайних левых производных:
выполняется следующее условие: префикс строки длины равно префиксу строки длины подразумевает .
В этом определении - начальный символ, а - любой нетерминальный. Уже производный ввод , но еще не прочитанный и - строки терминалов. Греческие буквы , и представляют любую строку оба терминала и нетерминалы (возможно, пустые). Длина префикса соответствует размеру буфера просмотра вперед, и в определении говорится, что этого буфера достаточно, чтобы различать любые два производных разных слов.
Парсер - это детерминированный автомат выталкивания с возможностью для просмотра следующих символов ввода без чтения. Эту возможность просмотра можно эмулировать, сохраняя содержимое буфера предварительного просмотра в пространстве конечных состояний, поскольку и буфер, и входной алфавит имеют конечный размер. В результате это не делает автомат более мощным, а представляет собой удобную абстракцию.
Алфавит стека: , где:
Стек парсера изначально содержит начальный символ над EOI: . Во время работы синтаксический анализатор неоднократно заменяет символ наверху стека:
Если последний символ, который будет удален из стека, является EOI, синтаксический анализ успешен; автомат принимает через пустой стек.
Состояния и функция перехода явно не указаны; вместо этого они задаются (генерируются) с использованием более удобной таблицы синтаксического анализа. Таблица обеспечивает следующее сопоставление:
Если синтаксический анализатор не может выполнить допустимый переход, ввод отклоняется (пустые ячейки). Чтобы сделать таблицу более компактной, обычно отображаются только нетерминальные строки, так как действие для терминалов одинаково.
Для объяснения работы парсера LL (1) мы рассмотрим следующую небольшую грамматику LL (1):
и проанализируйте следующий ввод:
Таблица синтаксического анализа LL (1) для грамматика имеет строку для каждого нетерминала и столбец для каждого терминала (включая специальный терминал, представленный здесь как $, который используется для обозначения конца входного потока).
Каждая ячейка таблицы может указывать максимум на одно правило грамматики (идентифицируемое по его номеру). Например, в таблице синтаксического анализа для приведенной выше грамматики ячейка для нетерминального 'S' и терминала '(' указывает на правило номер 2:
( | ) | a | + | $ | |
---|---|---|---|---|---|
S | 2 | - | 1 | - | - |
F | - | - | 3 | - | - |
Алгоритм построения таблицы синтаксического анализа описан в следующем разделе, но сначала давайте посмотрим, как синтаксический анализатор использует таблицу синтаксического анализа для обработки своего ввода.
На каждом шаге синтаксический анализатор считывает следующий доступный символ из входного потока, а самый верхний символ из стека. Если входной символ и верхний символ стека совпадают, синтаксический анализатор отбрасывает их оба, оставляя только несовпадающие символы во входном потоке и в стеке.
Таким образом, в своем На первом этапе синтаксический анализатор считывает входной символ '(' и символ вершины стека 'S'. Инструкция таблицы синтаксического анализа поступает из столбца, озаглавленного входным символом '(' и строка, озаглавленная символом вершины стека "S"; эта ячейка содержит "2", которое указывает синтаксическому анализатору применить правило (2). Анализатор должен переписать "S" на "(S +F )" в стеке, удаление 'S' f rom stack и помещает ')', 'F', '+', 'S', '(' в стек, и это записывает правило номер 2 на вывод. Стек тогда становится:
[ (, S, +, F, ), $]
На втором этапе синтаксический анализатор удаляет '(' из своего входного потока и из своего стека., поскольку теперь они совпадают. Теперь стек выглядит следующим образом:
[S, +, F, ), $]
Теперь синтаксический анализатор имеет на входе 'a' поток и букву S в качестве вершины стека. Таблица синтаксического анализа дает указание применить правило (1) из грамматики и записать правило номер 1 в выходной поток. Стек становится следующим:
[F, +, F, ), $]
Теперь синтаксический анализатор имеет 'a' во входном потоке и букву 'F' на вершине стека. Таблица синтаксического анализа указывает ему применить правило (3) из грамматики и запишите в выходной поток правило номер 3. Стек станет следующим:
[ a, +, F, ), $]
Теперь синтаксический анализатор имеет 'a' во входном потоке и 'a' на вершине стека. Поскольку они одинаковы, он удаляет его из входного потока и выталкивает из вершины стека. Затем синтаксический анализатор имеет '+' на входной поток и '+' находится в верхней части stack означает, что, как и в случае с 'a', он извлекается из стека и удаляется из входного потока. Это приводит к:
[F, ), $]
В следующих трех шагах синтаксический анализатор заменит в стеке 'F' на 'a', запишите правило номер 3 в выходной поток и удалите «a» и «)» как из стека, так и из входного потока. Таким образом, синтаксический анализатор заканчивается символом «$» как в своем стеке, так и в входном потоке.
В этом случае синтаксический анализатор сообщит, что он принял входную строку, и запишет следующий список номеров правил в выходной поток:
Это действительно, список правил для крайнего левого производного входной строки, который имеет следующий вид:
Ниже следует реализация C ++ табличного анализатора LL для примера языка:
#include#include
# Все константы индексируются от 0 TERM = 0 RULE = 1 # Терминалы T_LPAR = 0 T_RPAR = 1 T_A = 2 T_PLUS = 3 T_END = 4 T_INVALID = 5 # Нетерминалы N_S = 0 N_F = 1 # Таблица синтаксического анализа table = [[1, -1, 0, -1, -1, -1], [-1, -1, 2, -1, -1, -1]] RULES = [[(RULE, N_F)], [(TERM, T_LPAR), (RULE, N_S), (TERM, T_PLUS), (RULE, N_F), (TERM, T_RPAR)], [(TERM, T_A)]] стек = [(TERM, T_END), (RULE, N_S)] def lexical_analysis (inputstring): print ("Лексический анализ") tokens = for c in inputstring: if c == "+": tokens.append (T_PLUS) elif c == "( ": tokens.app end (T_LPAR) elif c == ")": tokens.append (T_RPAR) elif c == "a": tokens.append (T_A) else: tokens.append (T_INVALID) tokens.append (T_END) print (tokens) return tokens def syntactic_analysis (tokens): print ("Синтаксический анализ") position = 0 while len (stack)>0: (stype, svalue) = stack.pop () token = tokens [position] if stype == TERM: if svalue == token: position + = 1 print ("pop", svalue) if token == T_END: print ("input accept") else: print ("bad term on input:", token) break elif stype == RULE : print ("svalue", svalue, "token", token) rule = table [svalue] [token] print ("rule", rule) для r в обратном порядке (RULES [rule]): stack.append (r) print ("стек", стек) inputstring = "(a + a)" syntactic_analysis (lexical_analysis (inputstring))
Как видно из примера, синтаксический анализатор выполняет три типа шагов в зависимости от является ли вершина стека нетерминалом, терминалом или специальным символом $:
Эти шаги повторяются до тех пор, пока анализатор не остановится, а затем он либо полностью проанализирует ввод и запишет крайнее левое производное в выходной поток, либо сообщит ошибка.
Чтобы заполнить таблицу синтаксического анализа, мы должны установить, какое правило грамматики следует выбрать синтаксическому анализатору, если он видит нетерминал A наверху своего стек и символ a в его входном потоке. Легко видеть, что такое правило должно иметь вид A → w и что язык, соответствующий w, должен иметь хотя бы одну строку, начинающуюся с a. Для этого мы определяем Первый набор w, записанный здесь как Fi (w), как набор терминалов, которые могут быть найдены в начале некоторой строки в w, плюс ε, если пустая строка также принадлежит w. Учитывая грамматику с правилами A 1 → w 1,..., A n → w n, мы можем вычислить Fi(wi) и Fi(Ai) для каждого правила следующим образом:
Результатом является решение с наименьшей фиксированной точкой для следующей системы:
где, для наборов слов U и V усеченное произведение определяется как U · V = {(uv): 1: u ∈ U, v ∈ V}, а w: 1 обозначает начальный префикс длины 1 слов w длины 2 или более или самого слова w, если w имеет длину 0 или 1.
К сожалению, первых наборов недостаточно для вычисления таблицы синтаксического анализа. Это связано с тем, что правая часть правила w в конечном итоге может быть переписана в пустую строку. Таким образом, синтаксический анализатор также должен использовать правило A → w, если ε находится в Fi (w) и видит во входном потоке символ, который может следовать за A. Следовательно, нам также нужен Follow-набор A, записанный здесь как Fo (A), который определяется как набор терминалов a, такой, что существует строка символов αAaβ, которая может быть получена из начального символа. Мы используем $ как специальный терминал, указывающий конец входного потока, и S как начальный символ.
Вычисление последующих наборов для нетерминалов в грамматике может быть выполнено следующим образом:
Это обеспечивает решение с наименьшей фиксированной точкой для следующей системы:
Теперь мы можем точно определить, какие правила будут отображаться в таблице синтаксического анализа. Если T [A, a] обозначает запись в таблице для нетерминала A и терминала a, то
Эквивалентно: T [A, a] содержит правило A → w для каждого a ∈ Fi (w) · Fo (A).
Если таблица содержит не более одного правила в каждой из своих ячеек, то синтаксический анализатор всегда будет знать, какое правило он должен использовать, и, следовательно, может анализировать строки без возврата. Именно в этом случае грамматика называется грамматикой LL (1).
Конструкция парсеров LL (1) может быть адаптирована к LL (k) для k>1 со следующими изменениями:
, где вход снабжен суффиксом k конечных маркеров $, чтобы полностью учесть k контекста опережающего просмотра.
До середины 1990-х было широко распространено мнение, что анализ LL (k) (для k>1) был непрактичным, поскольку таблица синтаксического анализатора имела бы экспоненциальный размер по k в худшем случае. кейс. Это восприятие постепенно изменилось после выпуска Purdue Compiler Construction Tool Set примерно в 1992 году, когда было продемонстрировано, что многие языки программирования могут эффективно анализироваться парсером LL (k) без запуска наихудшее поведение парсера. Более того, в некоторых случаях анализ LL возможен даже при неограниченном просмотре вперед. Напротив, традиционные генераторы синтаксического анализатора, такие как yacc, используют таблицы синтаксического анализатора LALR (1) для создания ограниченного синтаксического анализатора LR с фиксированным однолинейным просмотром вперед.
Как описано во введении, анализаторы LL (1) распознают языки с грамматиками LL (1), которые являются частным случаем контекстно-свободных грамматик; Парсеры LL (1) не могут распознавать все контекстно-свободные языки. Языки LL (1) представляют собой собственное подмножество языков LR (1), которые, в свою очередь, являются надлежащим подмножеством всех контекстно-свободных языков. Чтобы контекстно-свободная грамматика была грамматикой LL (1), не должно возникать определенных конфликтов, которые мы описываем в этом разделе.
Пусть A - нетерминал. FIRST (A) - это (определено как) набор терминалов, которые могут появляться в первой позиции любой строки, производной от A. FOLLOW (A) - это объединение по: (1) FIRST (B), где B - любое не- терминал, который следует сразу за A в правой части продукционного правила, и (2) FOLLOW (B), где B - любая глава правила вида B → wA.
Существует два основных типа конфликтов LL (1):
ПЕРВЫЕ наборы из двух разные грамматические правила для одного и того же нетерминального пересечения. Пример конфликта LL (1) ПЕРВЫЙ / ПЕРВЫЙ:
S ->E | E 'a' E ->'b' | ε
ПЕРВЫЙ (E) = {b, ε} и ПЕРВЫЙ (E a) = {b, a}, поэтому, когда таблица нарисована, возникает конфликт в терминале b производственного правила S.
Левая рекурсия вызовет конфликт FIRST / FIRST со всеми альтернативами.
E ->E '+' термин | alt1 | alt2
Наборы FIRST и FOLLOW правила грамматики перекрываются. С пустой строкой (ε) в ПЕРВОМ наборе неизвестно, какую альтернативу выбрать. Пример конфликта LL (1):
S ->A 'a' 'b' A ->'a' | ε
ПЕРВЫЙ набор A теперь равен {a, ε}, а набор FOLLOW {a}.
Обычный левый фактор «вычитается».
A ->X | X Y Z
становится
A ->X B B ->Y Z | ε
Может применяться, когда две альтернативы начинаются с одного и того же символа, например, конфликт ПЕРВЫЙ / ПЕРВЫЙ.
Другой пример (более сложный), использующий вышеупомянутый пример конфликта ПЕРВЫЙ / ПЕРВЫЙ:
S ->E | E 'a' E ->'b' | ε
становится (слияние в единый нетерминальный)
S ->'b' | ε | 'b' 'a' | 'a'
затем посредством разложения влево становится
S ->'b' E | E E ->'а' | ε
Замена правила другим правилом для устранения косвенных конфликтов или конфликтов FIRST / FOLLOW. Обратите внимание, что это может вызвать конфликт FIRST / FIRST.
Общий метод см. В разделе удаление левой рекурсии. Простой пример удаления левой рекурсии: Следующее производственное правило оставило рекурсию на E
E ->E '+' TE ->T
Это правило представляет собой не что иное, как список Ts, разделенных '+'. В форме регулярного выражения T ('+' T) *. Таким образом, правило можно переписать как
E ->T Z Z ->'+' T Z Z ->ε
Теперь нет левой рекурсии и нет конфликтов ни по одному из правил.
Однако не все контекстно-свободные грамматики имеют эквивалентную LL (k) -грамматику, например:
S ->A | B A ->'a' A 'b' | ε B ->'a' B 'b' 'b' | ε
Можно показать, что не существует никакой LL (k) -грамматики, принимающей язык, порожденный этой грамматикой.