Регулярное выражение

редактировать
Последовательность символов, образующая шаблон поиска Результаты совпадения шаблона
(?<=\.) {2,}(?=[A-Z])
Как минимум два пробела совпадают, но только если они появляются непосредственно после точки (.) и перед заглавной буквой. Стивен Коул Клини, который помог изобрести концепцию Черный список в Википедии, который использует регулярные выражения для определения неправильных заголовков

A регулярное выражение (сокращенное как регулярное выражение или регулярное выражение ; также упоминаемое как рациональное выражение ) представляет собой последовательность из символов, которые определяют поисковый шаблон . Обычно такие шаблоны используются алгоритмами поиска строк для операций «найти» или «найти и заменить» на строках или для проверки ввода. Это метод, разработанный в теоретической информатике и теории формального языка.

Эта концепция возникла в 1950-х годах, когда американский математик Стивен Коул Клини формализовал описание регулярного языка. Эта концепция получила широкое распространение с утилитами обработки текста Unix. Различные синтаксисы для написания регулярных выражений существуют с 1980-х годов, один из которых является стандартом POSIX, а другой, широко используемым, является синтаксисом Perl.

Регулярные выражения используются в поисковых системах, диалогах поиска и замены текстовых процессоров и в утилитах обработки текста, таких как sed и AWK и в лексическом анализе. Многие языки программирования предоставляют возможности регулярных выражений либо встроенными, либо через библиотеки.

Содержание

  • 1 Шаблоны
  • 2 История
  • 3 Базовые концепции
  • 4 Теория формального языка
    • 4.1 Формальное определение
    • 4.2 Выразительная сила и компактность
    • 4.3 Определение эквивалентности регулярных выражений
  • 5 Синтаксис
    • 5.1 Разделители
    • 5.2 Стандарты
      • 5.2.1 Базовый и расширенный POSIX
      • 5.2.2 Расширенный POSIX
      • 5.2.3 Классы символов
    • 5.3 Perl и PCRE
    • 5.4 Ленивое сопоставление
    • 5.5 Положительное сопоставление
  • 6 Шаблоны для нерегулярных языков
  • 7 Реализации и время выполнения
  • 8 Unicode
  • 9 Использование
  • 10 Примеры
  • 11 Индукция
  • 12 См. Также
  • 13 Примечания
  • 14 Ссылки
  • 15 Внешние ссылки

Шаблоны

Фраза регулярные выражения, также называемые регулярными выражениями, часто используются для обозначения определенного стандартного текстового синтаксиса для представления шаблонов для сопоставления текста, в отличие от математической записи, описанной ниже. Каждый символ в регулярном выражении (то есть каждый символ в строке, описывающей его шаблон) является либо метасимволом , имеющим особое значение, либо обычным символом, имеющим буквальное значение. Например, в регулярном выражении a.a - это буквальный символ, который соответствует только 'a', а '.' - это метасимвол, который соответствует всем символам, кроме новой строки. Следовательно, это регулярное выражение соответствует, например, 'a', 'ax' или 'a0'. Вместе метасимволы и буквальные символы могут использоваться для идентификации текста данного шаблона или обработки ряда его экземпляров. Соответствие шаблонов может варьироваться от точного равенства до очень общего подобия, что контролируется метасимволами. Например, .- это очень общий шаблон, [az](соответствие всем строчным буквам от 'a' до 'z') менее общий, а a- это точный шаблон (соответствует только "а"). Синтаксис метасимвола разработан специально для представления предписанных целей в краткой и гибкой форме для управления автоматизацией обработки текста различных входных данных в форме, удобной для ввода с использованием стандартной клавиатуры ASCII .

Очень простой случай регулярного выражения в этом синтаксисе - найти слово, написанное двумя разными способами в a, регулярное выражение seriali [sz] eсоответствует как «сериализовать», так и «сериализовать». Подстановочные знаки также достигают этого, но они более ограничены в том, что они могут формировать, поскольку у них меньше метасимволов и простая языковая база.

Обычный контекст подстановочных знаков - это подстановка похожих имен в списке файлов, тогда как регулярные выражения обычно используются в приложениях, которые обычно сопоставляют текстовые строки с шаблоном. Например, регулярное выражение ^ [\ t] + | [\ t] + $соответствует лишнему пробелу в начале или конце строки. Расширенное регулярное выражение, которое соответствует любой цифре: [+ -]? (\ D + (\. \ D +)? | \. \ D +) ([eE] [+ -]? \ D +)?.

Перевод звезда Клини. (s * означает «ноль или более s»)

A процессор регулярных выражений переводит регулярное выражение в приведенном выше синтаксисе во внутреннее представление, которое может быть выполняется и сопоставляется со строкой , представляющей текст, в котором выполняется поиск. Одним из возможных подходов является алгоритм построения Томпсона для создания недетерминированного конечного автомата (NFA), который затем делается детерминированным, и результирующий детерминированный конечный автомат (DFA) запускается в целевой текстовой строке для распознавания подстрок, соответствующих регулярному выражению. На рисунке показана схема NFA N (s *), полученная из регулярного выражения s *, где s, в свою очередь, обозначает более простое регулярное выражение, которое уже было рекурсивно переведено на NFA N (s).

История

Регулярные выражения возникли в 1951 году, когда математик Стивен Коул Клини описал регулярные языки, используя свою математическую нотацию, названную регулярными событиями. Они возникли в теоретической информатике, в подполях теории автоматов (модели вычислений) и описания и классификации формальных языков. Другие ранние реализации сопоставления с образцом включают язык SNOBOL, который не использовал регулярные выражения, а вместо этого использовал собственные конструкции сопоставления с образцом.

Регулярные выражения стали широко использоваться с 1968 года в двух случаях: сопоставление с образцом в текстовом редакторе и лексический анализ в компиляторе. Одним из первых случаев появления регулярных выражений в форме программы было то, что Кен Томпсон встроил нотацию Клини в редактор как средство сопоставления шаблонов в текстовых файлах. Для скорости Томпсон реализовал сопоставление регулярных выражений с помощью своевременной компиляции (JIT) с кодом IBM 7094 в Совместимой системе разделения времени, что является важным ранний пример JIT-компиляции. Позже он добавил эту возможность в редактор Unix, что в конечном итоге привело к тому, что популярный инструмент поиска grep стал использовать регулярные выражения («grep» - это слово, полученное из команды для поиска по регулярным выражениям в редакторе ed. : g / re / p, что означает «Глобальный поиск регулярных выражений и печать совпадающих строк»). Примерно в то же время, когда Томпсон разработал QED, группа исследователей, в которую входил Дуглас Т. Росс, реализовала инструмент, основанный на регулярных выражениях, который используется для лексического анализа в конструкции компилятора

.

Многие варианты этих исходных форм регулярных выражений использовались в программах Unix в Bell Labs в 1970-х, включая vi, lex, sed, AWK и expr, а также в других программах, таких как Emacs. Впоследствии регулярные выражения были приняты в широком диапазоне программ, причем эти ранние формы стандартизированы в стандарте POSIX.2 в 1992 году.

В 1980-х годах более сложные регулярные выражения возникли в Perl., который первоначально был получен из библиотеки регулярных выражений, написанной Генри Спенсером (1986), который позже написал реализацию расширенных регулярных выражений для Tcl. Библиотека Tcl представляет собой гибридную реализацию NFA / DFA с улучшенными характеристиками производительности. Программные проекты, использующие реализацию регулярных выражений Spencer Tcl, включают PostgreSQL. Позже Perl расширил исходную библиотеку Спенсера, добавив много новых функций. Часть усилий при разработке Raku (ранее называвшаяся Perl 6) заключается в улучшении интеграции регулярных выражений Perl, а также в увеличении их объема и возможностей, позволяющих определять грамматики синтаксического анализа. Результатом является мини-язык, называемый правилами Raku, которые используются для определения грамматики Raku, а также в качестве инструмента для программистов на этом языке. Эти правила поддерживают существующие функции регулярных выражений Perl 5.x, но также позволяют определять в стиле BNF рекурсивный синтаксический анализатор спуска с помощью подправил.

Использование регулярных выражений в стандартах структурированной информации для моделирования документов и баз данных началось в 1960-х и расширилось в 1980-х, когда отраслевые стандарты, такие как ISO SGML (предшественник ANSI "GCA 101-1983") консолидированный. Ядро стандартов языка спецификации структур состоит из регулярных выражений. Его использование очевидно в синтаксисе группы элементов DTD.

Начиная с 1997 года Филип Хейзел разработал PCRE (Perl-совместимые регулярные выражения), который пытается точно имитировать функциональность регулярных выражений Perl и используется многими современными инструментами, включая PHP и HTTP-сервер Apache.

Сегодня регулярные выражения широко поддерживаются в языках программирования, программах обработки текста (в частности, лексерах ), расширенных текстовых редакторах и некоторых других программах. Поддержка Regex является частью стандартной библиотеки многих языков программирования, включая Java и Python, и встроена в синтаксис других языков, включая Perl и <317.>ECMAScript. Реализации функциональности регулярных выражений часто называют механизмом регулярных выражений, и для повторного использования доступен ряд библиотек. В конце 2010-х годов несколько компаний начали предлагать оборудование, FPGA, GPU, реализации PCRE совместимых механизмов регулярных выражений, которые быстрее по сравнению с ЦП реализации .

Основные концепции

Регулярное выражение, часто называемое шаблоном, определяет набор строк, необходимых для определенной цели. Простой способ указать конечный набор строк - перечислить его элементы или члены. Однако часто есть более краткие способы: например, набор, содержащий три строки «Гендель», «Гендель» и «Гендель», может быть задан шаблоном H (ä | ae?) Ndel; мы говорим, что этот шаблон соответствует каждой из трех строк. В большинстве формализмов, если существует хотя бы одно регулярное выражение, которое соответствует определенному набору, тогда существует бесконечное количество других регулярных выражений, которые также соответствуют ему - спецификация не уникальна. Большинство формализмов предоставляют следующие операции для построения регулярных выражений.

логическое "или"
A вертикальная черта разделяет альтернативы. Например, серый | серыйможет соответствовать «серому» или «серому».
Группировка
Круглые скобки используются для определения области действия и приоритета операторов (среди прочего). Например, серый | серыйи gr (a | e) yявляются эквивалентными шаблонами, которые оба описывают набор «серого» или «серого».
Количественная оценка
A квантификатор после токена (например, символа) или группы указывает, как часто разрешается появление предыдущего элемента. Наиболее распространенными квантификаторами являются знак вопроса ?, звездочка *(образованная от звезды Клини ) и знак плюс +(знак Клини плюс ).
?Знак вопроса означает ноль или одно вхождение предыдущего элемента. Например, colou? Rсоответствует как «цвету», так и «цвету».
*Звездочка означает ноль или более вхождений предыдущего элемента. Например, ab * cсоответствует «ac», «abc», «abbc», «abbbc» и так далее.
+Знак плюс указывает одно или несколько вхождений предыдущего элемента. Например, ab + cсоответствует «abc», «abbc», «abbbc» и так далее, но не «ac».
{n}Предыдущий элемент встречается ровно n раз.
{min,}Предыдущий элемент встречается минимум минимум раз.
{min, max}Предыдущий элемент соответствует минимум минимум раз, но не больше максимум раз.
Подстановочный знак

Подстановочный знак .соответствует любому символу. Например, abсоответствует любой строке, содержащей "a", затем любому другому символу, а затем "b", a. * Bсоответствует любой строке, содержащей "a", а затем букву «b» позже.

Эти конструкции можно комбинировать для образования произвольно сложных выражений, подобно тому, как можно создавать арифметические выражения из чисел и операций +, -, × и ÷. Например, H (ae? | Ä) ndelи H (a | ae | ä) ndelявляются действительными шаблонами, которые соответствуют тем же строкам, что и предыдущий пример, H (ä | ae?) Ndel.

Точный синтаксис для регулярных выражений зависит от инструментов и в зависимости от контекста; более подробная информация представлена ​​в § Синтаксис.

Теория формального языка

Регулярные выражения описывают регулярные языки в теории формального языка. Они обладают той же выразительной силой, что и регулярные грамматики.

Формальное определение

Регулярные выражения состоят из констант, которые обозначают наборы строк, и символов операторов, которые обозначают операции над этими наборами. Следующее определение является стандартным и встречается как таковое в большинстве учебников по теории формального языка. Учитывая конечный алфавит Σ, следующие константы определяются как регулярные выражения:

  • (пустой набор) ing, обозначающий набор ∅.
  • (пустая строка ) ε, обозначающий набор, содержащий только "пустая" строка, в которой вообще нет символов.
  • (буквальный символ ) aв Σ, обозначающий набор, содержащий только символ a.

Для регулярных выражений R и S следующие операции над ними определены для получения регулярные выражения:

  • (конкатенация ) (RS)обозначает набор строк, который может быть получен путем конкатенации строки, принятой R, и строки, принятой S (в этом порядке). Например, пусть R обозначает {"ab", "c"}, а S обозначает {"d", "ef"}. Тогда (RS)обозначает {"abd", "abef", "cd", "cef"}.
  • (чередование ) (R | S)обозначает объединение множеств, описываемых R и S. Например, если R описывает {"ab", "c"}, а S описывает {"ab", "d", "ef"}, выражение (R | S)описывает {"ab", "c", "d", "ef"}.
  • (звезда Клини ) (R *)обозначает наименьшее надмножество набора, описанного R, которое содержит ε и является закрытым при конкатенации строк. Это набор всех строк, который может быть создан путем объединения любого конечного числа (включая ноль) строк из набора, описанного R. Например, если R обозначает {"0", "1"}, (R *)обозначает набор всех конечных двоичных строк (включая пустую строку). Если R обозначает {"ab", "c"}, (R *)обозначает {ε, "ab", "c", "abab", "abc", "cab", "cc", "ababab", "abcab",...}.

Чтобы избежать скобок, предполагается, что звезда Клини имеет наивысший приоритет, затем объединение, а затем чередование. Если нет двусмысленности, скобки можно опустить. Например, (ab) cможно записать как abc, а a | (b (c *))можно записать как a | bc *. Во многих учебниках вместо вертикальной черты для чередования используются символы ∨, + или ∨.

Примеры:

  • a | b *обозначает {ε, «a», «b», «bb», «bbb»,...}
  • (a | b) *обозначает набор всех строк без символов, кроме «a» и «b», включая пустую строку: {ε, «a», «b», «aa», «ab», «ba», «bb» "," aaa ",...}
  • ab * (c | ε)обозначает набор строк, начинающийся с" a ", затем ноль или более" b "и, наконец, необязательно" c ": {"a", "ac", "ab", "abc", "abb", "abbc",...}
  • (0 | (1 (01 * 0) * 1)) *обозначает набор двоичных чисел, кратных 3: {ε, «0», «00», «11», «000», «011», «110», «0000», «0011», «0110», "1001", "1100", "1111", "00000",...}

Выразительная сила и компактность

Формальное определение регулярных выражений намеренно минимально и позволяет избежать определения ?и +- их можно выразить следующим образом: a+= aa *и a?= (a | ε). Иногда добавляется оператор дополнения , чтобы получить обобщенное регулярное выражение; здесь R соответствует всем строкам над Σ *, которые не соответствуют R. В принципе, оператор дополнения избыточен, потому что он не дает больше выразительной силы. Однако с его помощью можно сделать регулярное выражение намного более кратким - исключение всех операторов дополнения из регулярного выражения может вызвать двойное экспоненциальное увеличение его длины.

Регулярные выражения в этом смысле могут выражают регулярные языки, в точности класс языков, приемлемый для детерминированных конечных автоматов. Однако есть существенная разница в компактности. Некоторые классы регулярных языков могут быть описаны только детерминированными конечными автоматами, размер которых растет экспоненциально по сравнению с размером кратчайших эквивалентных регулярных выражений. Стандартным примером здесь являются языки L k, состоящие из всех строк в алфавите {a, b}, у которых k-начиная с последней буквы равно a. С одной стороны, регулярное выражение, описывающее L 4, задается как (a ∣ b) ∗ a (a ∣ b) (a ∣ b) (a ∣ b) {\ displaystyle (a \ mid b) ^ {*} a (a \ mid b) (a \ mid b) (a \ mid b)}(a \ mid b) ^ {*} a (a \ mid b) (a \ mid b) (a \ mid b) .

Обобщение этого шаблона на L k дает выражение: ( a ∣ b) ∗ a (a ∣ b) (a ∣ b) ⋯ (a ∣ b) ⏟ k - 1 раз. {\ displaystyle (a \ mid b) ^ {*} a \ underbrace {(a \ mid b) (a \ mid b) \ cdots (a \ mid b)} _ {k-1 {\ text {times}} }. \,}(a \ mid b) ^ {*} a \ underbrace {(a \ mid b) (a \ mid b) \ cdots (a \ mid b)} _ {k-1 {\ text {times}}}. \,

С другой стороны, известно, что каждый детерминированный конечный автомат, принимающий язык L k, должен иметь как минимум 2 состояния. К счастью, существует простое отображение регулярных выражений в более общие недетерминированные конечные автоматы (NFA), которые не приводят к такому увеличению размера; по этой причине NFA часто используются как альтернативные представления обычных языков. NFA - это простая вариация грамматик типа 3 иерархии Хомского.

. В противоположном направлении есть много языков, легко описываемых DFA, которые нелегко описать регулярным выражением. Например, определение действительности данного ISBN требует вычисления модуля целочисленной базы 11 и может быть легко реализовано с помощью DFA с 11 состояниями. Однако регулярное выражение для решения той же проблемы делимости на 11 имеет длину не менее нескольких мегабайт.

Учитывая регулярное выражение, алгоритм построения Томпсона вычисляет эквивалентный недетерминированный конечный автомат.Преобразование в обратном направлении достигается с помощью алгоритма Клини.

Наконец, стоит отметить, что многие реальные движки "регулярных выражений" реализуют функции, которые не могут быть регулярными выражениями в смысле теории формального языка. ; скорее они реализуют регулярные выражения. Подробнее об этом см. ниже.

Определение эквивалентности регулярных выражений

Как видно из приведенных выше примеров, существует более одного метода построения регулярного выражения для достижения тех же результатов.

Можно написать алгоритм , который для двух заданных регулярных выражений определяет, равны ли описанные языки; сокращает выражение до минимального детерминированного конечного автомата алгоритм и определяет, являются ли они изоморфными (эквивалентными).

Алгебраические законы для регулярных выражений могут быть использованы с использованием метода Гишера, который лучше всего объясняется на примере: проверить, обозначают ли (X + Y) и (XY) один и тот же регулярный язык для регулярных выражений X, Y, необходимо и достаточно проверить, обозначают ли регулярные выражения (a + b) и (ab) один и тот же язык в алфавите Σ = {a, b}. В более общем смысле, когда выполняется его создание с разными переменными, замененными разными символьными константами.

Избыточность может быть устранена с помощью Kleene star и устанавливают union, чтобы найти интересное подмножество регулярных выражений, которые все еще полностью выразительны, но, возможно, их использование может быть ограничено. Это на удивление сложная проблема. Какими бы простыми ни были регулярные выражения, не существует метода их систематического преобразования в некоторую нормальную форму. Отсутствие аксиомы в прошлом к ​​проблеме высоты звезды. В 1991 году Декстер Козен аксиоматизировал регулярные выражения как алгебру Клини, используя аксиомы уравнения и клаузулы Хорна. Уже в 1964 году Редко доказал, что никакой конечный набор чисто эквациональных аксиом не может характеризовать алгебруных языков.

Синтаксис

Шаблон регулярного выражения соответствует указанной строке. Узор состоит из элементов. Атом - это единственная точка в шаблоне регулярного выражения, которую он пытается сопоставить со строкой. Самый простой атом - это литерал, но группировка частей шаблона для соответствия атому потребует использования ()в качестве метасимволов. Метасимволы создана сформирована: атомы; кванторы, показывающие, сколько атомов (и являются ли это жадным квантификатором нет); логический символ ИЛИ, предлагает набор альтернативный, и логический символ НЕ, который отрицает существование атома; и обратные ссылки для ссылки на предыдущие атомы завершающей структуры атомов. Сопоставление происходит не тогда, когда совпадают все атомы строки, а, скорее, когда совпадают все атомы в регулярном выражении. Идея состоит в том, чтобы сделать небольшой набор символов большого числа методов, а не составлять большой список всех буквальных возможностей.

В зависимости от регулярных выражений, существующих около четырнадцати метасимволов, символов, которые могут иметь или не иметь своего буквального значения символов, в зависимости от контекста или от того, являются ли они «экранированными», т. Е. Им предшествует escape-последовательность , в данном случае обратная косая черта \. Современные регулярные выражения и расширенные регулярные выражения POSIX используют метасимволы чаще, чем их буквальное значение, чтобы избежать «обратной косой черты» или синдрома наклонной зубочистки, имеет смысл использовать метасимволы для перехода в буквальный режим; но для начала имеет смысл иметь заключенные в скобки метасимвола ()и {}быть в основном буквальными и «исключенными» этими обычными значениями, чтобы стать метасимволами. Общие стандарты реализуют оба. Обычные метасимволы: {} () ^ $. | * +?и \. Обычными символами, становятся метасимволами при экранировании, являются dswDSWи N.

разделители

При вводе регулярного выражения на языке программирования они могут быть представлены как обычные строковые литералы, поэтому обычно заключаются в кавычки; это распространено, например, в C, Java и Python, где регулярное выражение reвводится как "re". Однако они часто записываются с косой чертой как разделители , как в / re /для регулярного выражения re. Это происходит из, где /- это команда редактора для поиска, в выражении / re /может быть указана одна из сторон диапазона стандартов (соответствующих шаблону), которые можно комбинировать с другими командами разных сторон, наиболее известна g / re / pкак в grep («глобальная печать регулярных выражений»), которая включена в большинство Unix - на основе операционных систем, таких как дистрибутивы Linux. Аналогичное соглашение используется в sed, где поиск и замена задаются s / re / replace /, а шаблоны могут быть объединены запятой, чтобы указать диапазон строк, как в / re1 /, / re2 /. Эта нотация особенно хорошо известна благодаря ее использованию в Perl, где она составляет часть синтаксиса, отличную от обычных строковых литералов. В некоторых случаях, таких как sed и Perl, можно использовать альтернативные разделители, чтобы избежать столкновения с содержимым и избежать необходимости экранировать вхождения символа-разделителя в содержимом. Например, в sed команда s, /, X,заменит /на X, используя запятые в качестве разделителей.

Стандарты

Стандарт IEEE POSIX имеет три набора соответствия: BRE (основные регулярные выражения), ERE (расширенные регулярные выражения) и SRE (простые регулярные выражения). SRE устарел пользуется BRE, поскольку оба обеспечивают обратную совместимость. Подраздел, описывающий классы персонажей, применим как к BRE, так и к ERE.

BRE и ERE работают вместе. ERE cor ?, +и |и устраняет необходимость экранировать метасимволы ()и {}, которые требуются в BRE. Более того, пока соблюдается стандартный синтаксис POSIX для регулярных выражений, может быть и часто бывает дополнительный синтаксис для конкретных (но совместимых с POSIX) приложений. В некоторых особенностях реализации POSIX.2 BRE и ERE остаются неопределенными «стандарт», который используется как синтаксис по умолчанию для многих инструментов, где обычно используются режимы BRE или ERE. Например, GNU grepимеет следующие параметры: «grep -E» для ERE и «grep -G» для BRE. (по умолчанию) и "grep -P" для регулярных выражений Perl.

Регулярные выражения Perl стали стандартом де-факто, имея богатый и мощный набор элементарных выражений. Perl не имеет «базовых» или «расширенных» уровней. Как и в POSIX ERE, ()и {}обрабатываются как метасимволы, если не экранированы; другие метасимволы, как известно, буквальными или символическими, существуют только на контексте. Дополнительные функции включают ленивое сопоставление, именованные группы захвата и рекурсивные шаблоны.

Базовый и расширенный POSIX

В стандарте POSIX базовый регулярный синтаксис (BRE ) требует наличия метасимволов ()и {}обозначаются \ (\)и \ {\}, тогда как расширенный регулярный синтаксис (ERE ) нет.

Метасимвол
^Соответствует начальной позиции в строке. В линейных инструментовх он соответствует начальной позиции любой строки.
.Соответствует любому одиночному символу (многие приложения исключают новые строки, и какие именно символы считаются новыми строками, зависит от вкуса, кодировки символов и платформы, но можно с уверенностью предположить, что перевод строки персонаж включен). В выражениях скобок POSIX символ точки соответствует буквальной точке. Например, a.cсоответствует «abc» и т. Д., Но [a.c]соответствует только «a», «.» Или «c».
[]Выражение в квадратных скобках. Соответствует одному символу, заключенному в квадратные скобки. Например, [abc]соответствует «a», «b» или «c». [a-z]определяет диапазон, который соответствует любой строчной букве от «a» до «z». Эти формы можно смешивать: [abcx-z]соответствует «a», «b», «c», «x», «y» или «z», как и [a -cx -z].

Символ -рассматривается как буквальный символ, если он является последним или первым (после ^, если присутствует) символом в скобках: [abc -], [-abc]. Обратите внимание, что экранирование обратной косой черты не допускает. Символ ]можно включить в выражении в квадратных скобках, если он является первым (после ^) символом: abc].

[^]Соответствует одиночный символ, не заключенный в квадратные скобки. Например, [^ abc]соответствует любому символу, кроме «a», «b» или «c». [^ a-z]соответствует любому одиночному символу, который не является строчной буквой от «a» до «z». Таким же образом можно смешивать буквальные символы и диапазоны.
$Соответствует конечной позиции или позиции непосредственно перед новой строкой, заканчивающейся строкой. В линейных инструментовх он соответствует конечной позиции любой строки.
()Определяющее отмеченное подвыражение. Строку, указанную в скобках, можно будет вызвать позже (см. Следующую запись, \ n). Отмеченное подвыражение также называется блоком или группой захвата. Для режима BRE требуется \ (\).
\nСоответствует тому, что соответствует n-му указанному подвыражению, где n - это цифра от 1 до 9. Эта конструкция неопределенно определена в стандарте POSIX.2. Некоторые инструменты позволяют ссылаться на более чем девять групп захвата. Также известна как обратная ссылка.
*Соответствует предыдущему элементу ноль или более раз. Например, ab * cсоответствует «ac», «abc», «abbbc» и т. Д. [xyz] *соответствует «», «x», «y», «z», «zx», «zyx», «xyzzy» и т. Д. (ab) *соответствует "", "ab", "abab", "ababab" и так далее.
{m, n}Соответствует предыдущему элементу не менее m и не более n раз. {3,5}соответствует только «aaa», «aaaa» и «aaaaa». Этого нет в нескольких старых экземплярах регулярных выражений. Для режима BRE требуется \ {m, n \}.

Примеры:

  • .atсоответствует любой трехсимвольной строке, оканчивающейся на "at", включая "шляпу", "кот", и "летучая мышь".
  • [hc] atсоответствует "hat "и" cat ".
  • [^ b] at .at, кроме" bat ".
  • [^ hc] всоответствует всем строкам, соответственно .at, кроме "hat" и "cat".
  • ^ [hc] atсоответствует "hat" и "cat", но только в начале строки или строки.
  • [hc] at $соответствует "шляпе" и "кошке", но только в конце строки или строки.
  • \ [. \]соответствует любо му одиночному символу, окруженному «[» и «]», поскольку скобки экранированы, например: «[a]» и «[b]».
  • с. *соответствует s, за которым следует ноль или более символы, например: «s», «saw» и «seed».

Расширенный POSIX

Значение метасимволов экранировано с помощью обратной косая черта обращена для некоторых символов в синтаксисе расширенного регулярного выражения POSIX (ERE ). В этом синтаксисе обратная косая черта приводит к тому, что метасим обрабатывается как буквальный символ. Так, например, \ (\)теперь (), а \ {\}теперь {}. Кроме удаленной поддержки \ nобратных ссылок и добавленные следующие метасимволы:

МетасимволОписание
?Соответствует предыдущему элементу ноль или один раз. Например, ab? Cсоответствует только «ac» или «abc».
+Соответствует предыдущему элементу один или несколько раз. Например, ab + cсоответствует «abc», «abbc», «abbbc» и так далее, но не «ac».
|Оператор выбора (также известный как чередование или объединение) соответствует либо выражению до, либо выражению после оператора. Например, abc | defсоответствует «abc» или «def».

Примеры:

  • [hc]? Усоответствует «у», «шляпа» и «кот».
  • [hc] * atсоответствует «at», «hat», «cat», «hhat», «chat», «hcat», «cchchat» и т. д.
  • [hc] + atсоответствует «hat», «cat», «hhat», «chat», «hcat», «cchchat» и т. Д., Но не «at».
  • cat | dogсоответствует "cat" или "dog".

Расширенные регулярные выражения POSIX часто можно использовать с современными утилитами Unix, включая командную строку флаг -E.

Классы символов

Символьные классы - это основная концепция регулярных после буквального совпадения. Например, [AZ]может означать алфавит в верхнем регистре в английском языке, а \ dможет означать любую цифру. Классы символов применяются к обоим уровням POSIX.

При указании диапазона символов, например [aZ](т.е. строчные aв верхний регистр Z), настройки локали компьютера определяют содержимое по числовому порядку кодировки символов. Они могут хранить цифры в этой последовательности, или порядок может быть abc… zABC… Z, о r aAbBcC… zZ. Таким образом, стандарт POSIX определяет класс символов, который будет известен установленному процессору регулярных выражений. Эти определения приведены в следующей таблице:

POSIXНестандартныйPerl/TclVimJavaASCIIОписание
[: ascii:]\ p {ASCII}[\ x00- \ x7F]символы ASCII
[: alnum:]\ p {Alnum}[A-Za-z0-9]Буквенно-цифровые символы
[: word:]\w\w\w[A-Za-z0-9_]Буквенно-цифровые символы плюс "_ "
\W\W\W[^ A-Za-z0-9_]Несловные символы
[: alpha:]\a\ p {Alpha}[A-Za-z]Буквенные символы
[: blank:]\s\ p {Blank}[\ t]Пробел и табуляция
\b\< \>\b(?<=\W)(?=\w)|(?<=\w)(?=\W)Границы слова
\B(?<=\W)(?=\W)|(?<=\w)(?=\w)Несловные границы
[: cntrl: ]\ p {Cntrl}[\ x00- \ x1F \ x7F]Управляющие символы
[: digit:]\d\d\ p {Digit}или \d[ 0-9]Цифры
\D\D\D[^ 0-9]Нецифровые
[: graph:]\ p {Graph}[\ x21- \ x7E]Видимые символы
[: lower:]\l\ p {Lower}[az]Буквы нижнего регистра
[: print:]\p\ p {Print}[\ x20- \ x7E]Видимые символы и пробел
[: punct:]\ p {Punct}[! "# $% '() * +,. / :; <=>? @ \ ^ _ `{|} ~ -]Знаки пунктуации
[: пробел:]\s\ _s\ p {Пробел}или \s[ \t \r \n \v \f ]Пробельные символы
\S\S\S[^ \ t \ r \ n \ v \ f]Непробельные символы
[: upper:]\u\ p {Upper}[ AZ]Прописные буквы
[: xdigit:]\x\ p {XDigit}[A-Fa-f0-9]Шестнадцатеричные цифры

Могут использоваться только классы символов POSIX в квадратных скобках. Например, [[: upper:] ab]соответствует прописным и строчным буквам «a» и «b».

Дополнительный класс, не относящийся к POSIX, понимаемый некоторыми инструментами, - это [: word:], который обычно определяется как [: alnum:]плюс подчеркивание. Это отражает тот факт, что во многих языках программирования это символы, которые могут использоваться в идентификаторах. Кроме того, редактор различает классы слов и заголовков (используя обозначения \ wи \ h), поскольку во многих языках программирования символы, которые могут начинать идентификатор, не совпадают с которые могут встречаться в других позициях: числа обычно исключаются, поэтому идентификатор будет иметь вид \ h \ w *или [[: alpha:] _] [[: alnum:] _] *в нотации POSIX.

Обратите внимание, что то, что стандарты регулярных выражений POSIX называют классами символов, обычно называют классами символов POSIX в других разновидностях регулярных выражений, которые их поддерживают. В большинстве других разновидностей регулярных выражений термин «класс символов» используется для описания того, что POSIX называет выражениями в квадратных скобках.

Perl и PCRE

Из-за его выразительной силы и (относительной) простоты чтения многие другие утилиты и языки программирования приняли синтаксис, аналогичный синтаксису Perl - для например, Java, JavaScript, Julia, Python, Ruby, Qt, Microsoft .NET Framework и Схема XML. Некоторые языки и инструменты, такие как Boost и PHP, поддерживают несколько разновидностей регулярных выражений. Реализации регулярных выражений, производные от Perl, не идентичны и обычно реализуют подмножество функций, обнаруженных в Perl 5.0, выпущенном в 1994 году. Perl иногда действительно включает функции, изначально обнаруженные в других языках. Например, Perl 5.10 реализует синтаксические расширения, изначально разработанные в PCRE и Python.

Ленивое сопоставление

В Python и некоторых других реализациях (например, Java) три общих квантификатора (*, +и ?) по умолчанию являются жадными, поскольку они соответствуют как можно большему количеству символов. Регулярное выражение ". +"(включая двойные кавычки) применено к строке

«Ганимед, - продолжил он, - является самой большой луной в Солнечной системе».

соответствует всей строке (поскольку вся строка начинается и заканчивается двойным кавычкой) вместо соответствия только первой части, «Ганимед»,. Вышеупомянутые кванторы, однако, можно сделать ленивыми, минимальными или неохотными, сопоставив как можно меньше символов, добавив вопросительный знак: ". +?"соответствует только "Ганимед",.

Тем не менее, при некоторых обстоятельствах все предложение может совпадать. Оператор вопросительного знака не меняет значения оператора точки, поэтому он по-прежнему может соответствовать двойным кавычкам во входных данных. Шаблон типа ". *?" EOFвсе равно будет всему вводу, если это строка:

«Ганимед, - продолжил он, - самый большой спутник в Солнечной системе». EOF

Чтобы двойные кавычки не могли быть совместимы, необходимо заменить точку (например, "[^"] * "). Это будет соответствовать тексту в кавычках часть без дополнительных двойных (Успешное сопоставление фиксированного суффикса, можно также преобразовать ленивое сопоставление в жадное сопоставление.)

Положительное сопоставление

В В Java квантификаторы можно сделать притяжательными, добавив знак плюса, который отключает откат (в механизме обратного сообщения), даже если это к результату совпадения в целом: пока успешное регулярное выражение ". * "к строке

« Ганимед, - продолжил он, - является самой большой луной в Солнечной системе ».

соответствует всей строке, регулярное выражение ». * + "совсем не соответствует, потому что . * +потребляет весь ввод, включая последний ". Таким образом, притяжательные квантификаторы наиболее полезны с отрицательными классами символов, например "[^"] * + ", что соответствует " Ганимед ",при применении к той же строке.

Еще одним распространенным расширением, выполняющим ту же функцию функцию, является атомарная группировка, которая активирует поиск с возвратом для группы в группах. Например, ^ (wi | w) i $ соответствует как wi, так и wii, ^ (?>wi | w) i $ соответствует только wii, потому что движку запрещен возврат с возвратом, и попробуйте установить группу как «w».

Притяжательные квантификаторы легче реализовать, чем жадные и ленивые квантификаторы, и обычно более эффективны во время выполнения.

Шаблоны для нерегулярных языков

Многие функции, присутствующие практически во всех современных библиотеках регулярных выражений, обеспечивают выразительность, превосходящую обычные языки. Например, многие реализации позволяют группировать подвыражения с помощью круглых скобок и вызывать значение, которое они соответствуют в одном выражении (обратные ссылки). Это означает, что, среди прочего, шаблон может соответствовать строки повторяющихся слов, таких как «папа» или «WikiWiki», называемые квадратами в формальной теории языка. Шаблон для этих строк: (. +) \ 1.

Язык квадратов не является ни регулярным, ни контекстно-свободным из-за леммы перекачки. Однако соответствие шаблону с неограниченным количеством обратных ссылок, поддерживаемое многочисленными современными инструментами, по-прежнему контекстно-зависимо. Общая проблема сопоставления любого количества обратных ссылок - это NP-Complete, экспоненциально растущая по количеству используемых групп обратных ссылок.

Однако многие инструменты, библиотеки и механизмы, которые предоставляют такие конструкции, по-прежнему используйте термин регулярное выражение для своих шаблонов. Это привело к номенклатуре, в которой термин регулярное выражение имеет разные значения в теории формального языка и сопоставлении с образцом. По этой причине некоторые люди стали использовать термин регулярное выражение, регулярное выражение или просто шаблон для описания последнего. Ларри Уолл, автор языка программирования Perl, пишет в эссе о дизайне Raku:

«Регулярные выражения» […] лишь незначительно связаны с реальными регулярными выражениями. Тем не менее, термин расширился вместе с возможностями наших механизмов сопоставления с образцом, поэтому я не собираюсь здесь бороться с лингвистической необходимостью. Однако я обычно буду называть их "регулярными выражениями" (или "регулярными выражениями", когда я в англосаксонском настроении).

УтверждениеВзгляд назадВзгляд вперед
Положительный(?<=шаблон)(?=шаблон)
Отрицательный(?(?!шаблон)
Утверждения просмотра назад и вперед. в Perl регулярных выражениях

Другие особенности, отсутствующие в описании обычных языков, включают утверждения. К ним относятся вездесущие ^ и $, а также некоторые более сложные расширения, такие как lookaround. Они определяют окружение совпадения и не распространяются на само совпадение - функция, имеющая отношение только к варианту использования строкового поиска. Некоторые из них можно смоделировать на обычном языке, рассматривая окружение как часть языка.

Реализации и время выполнения

Существует как минимум три различных алгоритма, которые решают, соответствует ли данное регулярное выражение строке и как именно.

Самый старый и самый быстрый основан на результате в теории формального языка, который позволяет преобразовать каждый недетерминированный конечный автомат (NFA) в детерминированный конечный автомат (DFA). DFA можно создать явно, а затем запускать в полученной входной строке по одному символу за раз. Построение DFA для регулярного выражения размера m требует времени и затрат памяти O (2), но его можно запустить для строки размера n за время O (n). Обратите внимание, что размер выражения - это размер после расширения сокращений, таких как числовые квантификаторы.

Альтернативный подход - моделировать NFA напрямую, по сути создавая каждое состояние DFA по запросу, а затем отбрасывая его на следующем этапе. Это сохраняет DFA неявным и позволяет избежать экспоненциальной стоимости строительства, но текущие затраты возрастают до O (mn). Явный подход называется алгоритмом DFA, а неявный подход - алгоритмом NFA. Добавление кеширования к алгоритму NFA часто называют алгоритмом «ленивого DFA» или просто алгоритмом DFA без каких-либо различий. Эти алгоритмы быстры, но использовать их для вызова сгруппированных подвыражений, ленивого количественного анализа и подобных функций сложно. Современные реализации включают семейство re1-re2-sregex, основанное на коде Кокса.

Третий алгоритм - сопоставление шаблона с входной строкой с помощью поиска с возвратом. Этот алгоритм обычно называют NFA, но эта терминология может сбивать с толку. Его время работы может быть экспоненциальным, что проявляется в простых реализациях при сопоставлении с выражениями типа (a | aa) * b, которые содержат как чередование, так и неограниченное количественное определение и заставляют алгоритм учитывать экспоненциально увеличивающееся количество подвариантов. Такое поведение может вызвать проблему безопасности под названием Регулярное выражение «Отказ в обслуживании» (ReDoS).

Хотя реализации с возвратом дают экспоненциальную гарантию только в худшем случае, они обеспечивают гораздо большую гибкость и выразительность. Например, любая реализация, которая позволяет использовать обратные ссылки или реализует различные расширения, представленные Perl, должна включать какой-либо вид обратного отслеживания. Некоторые реализации пытаются обеспечить лучшее из обоих алгоритмов, сначала запустив быстрый алгоритм DFA, и возвращаются к потенциально более медленному алгоритму обратного отслеживания только тогда, когда во время сопоставления встречается обратная ссылка. GNU grep (и лежащий в основе gnulib DFA) использует такую ​​стратегию.

Сублинейные алгоритмы времени выполнения были достигнуты с использованием алгоритмов на основе Бойера-Мура (BM) и связанных с ними методов оптимизации DFA, таких как обратное сканировать. GNU grep, который поддерживает широкий спектр синтаксисов и расширений POSIX, использует BM для предварительной фильтрации первого прохода, а затем использует неявный DFA. Wu comparep, который реализует приблизительное сопоставление, объединяет предварительную фильтрацию в DFA в BDM (обратное сопоставление DAWG). BNDM NR-grep расширяет технику BDM с помощью параллелизма на уровне битов Shift-Or.

Существует несколько теоретических альтернатив обратному отслеживанию для обратных ссылок, и их «показатели» более мягкие, поскольку они связаны только с количеством обратные ссылки, фиксированное свойство некоторых языков регулярных выражений, таких как POSIX. Один наивный метод, который дублирует NFA без возврата для каждой заметки с обратной ссылкой, имеет сложность O (n 2 k + 2) {\ displaystyle {\ mathrm {O}} (n ^ {2k + 2})}{\ displaystyle {\ mathrm {O} } (n ^ {2k + 2})} время и O (n 2 k + 1) {\ displaystyle {\ mathrm {O}} (n ^ {2k + 1})}{\ displaystyle {\ mathrm {O}} (n ^ {2k + 1})} пространство для стога сена длиной n и k обратных ссылок в RegExp. Самая недавняя теоретическая работа, основанная на автоматах памяти, дает более жесткие границы на основе используемых «активных» переменных узлов и полиномиальную возможность для некоторых регулярных выражений с обратной ссылкой.

Unicode

Теоретически любой токен set может соответствовать регулярным выражениям, если он предварительно определен. Что касается исторических реализаций, регулярные выражения изначально были написаны для использования символов ASCII в качестве набора токенов, хотя библиотеки регулярных выражений поддерживали множество других наборов символов . Многие современные механизмы регулярных выражений предлагают хотя бы некоторую поддержку Unicode. В большинстве случаев не имеет значения, что такое набор символов, но некоторые проблемы возникают при расширении регулярных выражений для поддержки Unicode.

  • Поддерживаемая кодировка . Некоторые библиотеки регулярных выражений рассчитывают работать с определенной кодировкой вместо абстрактных символов Юникода. Многие из них требуют кодировки UTF-8, в то время как другие могут ожидать UTF-16 или UTF-32. Напротив, Perl и Java не зависят от кодировок, вместо этого работая с декодированными символами внутренне.
  • Поддерживаемый диапазон Unicode . Многие механизмы регулярных выражений поддерживают только Basic Multilingual Plane, то есть символы, которые могут быть закодированы только с помощью 16 бит. В настоящее время (по состоянию на 2016 год) только несколько механизмов регулярных выражений (например, Perl и Java) могут обрабатывать полный 21-битный диапазон Unicode.
  • Расширение ASCII-ориентированных конструкций до Unicode . Например, в реализациях на основе ASCII диапазоны символов в форме [xy]действительны везде, где x и y имеют кодовые точки в диапазоне [0x00,0x7F] и кодовую точку (x) ≤ кодовая точка (y). Естественное расширение таких диапазонов символов до Unicode просто изменило бы требование, чтобы конечные точки лежали в [0x00,0x7F], на требование, чтобы они лежали в [0x0000,0x10FFFF]. Однако на практике часто бывает не так. Некоторые реализации, такие как gawk, не позволяют диапазонам символов пересекать блоки Unicode. Диапазон вроде [0x61,0x7F] допустим, поскольку обе конечные точки попадают в блок Basic Latin, как и [0x0530,0x0560], поскольку обе конечные точки попадают в армянский блок, но диапазон вроде [0x0061,0x0532] недействителен, так как он включает несколько блоков Unicode. Другие механизмы, такие как редактор редактора, допускают пересечение блоков, но значения символов не должны разделяться более 256.
  • Без учета регистра . Некоторые флаги нечувствительности к регистру влияют только на символы ASCII. Другие флаги влияют на всех персонажей. У некоторых движков есть два разных флага: один для ASCII, другой для Unicode. То, какие символы принадлежат классам POSIX, также различается.
  • Родственники нечувствительности к регистру . Поскольку ASCII имеет различие в регистре, нечувствительность к регистру стала логической особенностью текстового поиска. Unicode представил алфавитные сценарии без регистра, например Деванагари. Для них чувствительность к регистру не применяется. Для таких шрифтов, как китайский, логичным кажется другое различие: между традиционным и упрощенным. В арабском алфавите может быть желательна нечувствительность к начальному, среднему, конечному и изолированному положению. В японском языке иногда полезно использовать нечувствительность между хирагана и катакана.
  • Нормализация . Юникод содержит комбинированных символов. Как и в старых пишущих машинках, за простыми буквами могут следовать один или несколько символов без пробелов (обычно диакритические знаки, такие как знаки ударения), чтобы сформировать один печатный символ, но также предоставляют предварительно составленные символы, то есть символы, которые уже включают один или несколько комбинированных символов. Последовательность символа + комбинированного символа должна совпадать с идентичным одиночным предварительно составленным символом. Процесс стандартизации последовательностей символов + комбинирование символов называется нормализацией.
  • Новые коды управления . Среди прочего введен Unicode, знаки порядка байтов и маркеры направления текста. С этими кодами, возможно, придется обращаться особым образом.
  • Введение классов символов для блоков Unicode, скриптов и множества других свойств символов . Свойства блока гораздо менее полезны, чем свойства скрипта, потому что блок может иметь кодовые точки из нескольких разных скриптов, а скрипт может иметь кодовые точки из нескольких разных блоков. В Perl и библиотеке java.util.regex свойства формы \ p {InX}или \ p {Block = X}соответствует символам в блоке X, а \ P {InX}или \ P {Block = X}соответствует кодовым точкам не в этом блоке. Аналогично, \ p {армянский}, \ p {IsArmenian}или \ p {Script = Armenian}соответствует любому символу в армянском алфавите. Как правило, \ p {X}соответствует любому символу либо с двоичным свойством X, либо с общей категорией X. Например, \ p {Lu}, \ p { Uppercase_Letter}или \ p {GC = Lu}соответствует любой заглавной букве. Двоичные свойства, не относящиеся к общим категориям, включают \ p {White_Space}, \ p {Alphabetic}, \ p {Math}и \ p {Дэш}. Примеры небинарных свойств: \ p {Bidi_Class = Right_to_Left}, \ p {Word_Break = A_Letter}и \ p {Numeric_Value = 10}.

Использование

Регулярные выражения полезны в широком спектре задач обработки текста и в более общем плане обработки строк, где данные не обязательно должны быть текстовыми. Общие приложения включают проверку данных, очистку данных (особенно веб-сборку ), обработку данных, простой синтаксический анализ, производство систем подсветки синтаксиса и многие другие задачи.

Хотя регулярные выражения могут быть полезны в Интернете поисковых системах, их обработка по всей базе данных может потреблять чрезмерные ресурсы компьютера в зависимости от сложности и структуры регулярного выражения. Хотя во многих случаях системные администраторы могут выполнять внутренние запросы на основе регулярных выражений, большинство поисковых систем не предлагают публичной поддержки регулярных выражений. Примечательные исключения включают Google Code Search и Exalead. Однако Google Code Search был закрыт в январе 2012 года.

Примеры

Конкретные правила синтаксиса различаются в зависимости от конкретной реализации, языка программирования или библиотеки используется. Кроме того, функциональность реализаций регулярных выражений может варьироваться в зависимости от версии.

. Поскольку регулярные выражения бывает сложно объяснить и понять без примеров, интерактивные веб-сайты для тестирования регулярных выражений являются полезным ресурсом для изучения регулярных выражений путем экспериментов. В этом разделе в качестве иллюстрации приводится базовое описание некоторых свойств регулярных выражений.

В примерах используются следующие условные обозначения:

метасимвол (ы) ;; столбец с метасимволами определяет демонстрируемый синтаксис регулярного выражения = ~ m // ;; указывает на операцию сопоставления регулярного выражения в Perl = ~ s /// ;; указывает на операцию подстановки регулярных выражений в Perl

Также стоит отметить, что все эти регулярные выражения имеют синтаксис, подобный Perl. Стандартные регулярные выражения POSIX отличаются.

Если не указано иное, следующие примеры соответствуют языку программирования Perl, выпуск 5.8.8, 31 января 2006 г. Это означает, что другие реализации могут не поддерживать некоторые части синтаксиса. показано здесь (например, базовое или расширенное регулярное выражение, \ (\)vs. (), или отсутствие \ dвместо POSIX [: цифра:]).

Синтаксис и соглашения, используемые в этих примерах, также совпадают с синтаксисом других сред программирования.

Метасимвол (ы)ОписаниеПример
.Обычно соответствует любой символ, кроме новой строки.. В квадратных скобках точка буквальная.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m /...../) {print "$ string1 имеет длину>= 5. \ n"; }

Вывод:

Hello World имеет длину>= 5.
()Группирует серию элементов шаблона в один элемент.. Когда вы сопоставляете шаблон в круглых скобках, вы можете использовать любое из $1, $2,... позже, чтобы ссылаться на ранее согласованный шаблон.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / (H..). (o..) /) {print "Мы сопоставили '$ 1' и '$ 2'. \ n"; }

Вывод:

Мы сопоставили «Hel» и «o W».
+Один или несколько раз соответствует предыдущему элементу шаблона.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / l + /) {print "В $ string1. \ n есть одна или несколько последовательных букв \" l \ "; }

Вывод:

В Hello World одна или несколько последовательных букв "l".
?Соответствует предыдущему элементу шаблона ноль или один раз.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / H.? e /) {print "Есть 'H' и 'e', ​​разделенные символом"; напечатайте "0-1 символов (например, He Hue Hee). \ n"; }

Вывод:

Есть буквы «H» и «e», разделенные символами 0–1 (например, He Hue Hee).
?Изменяет регулярное выражение *, +, ?или {M, N}'d, которое предшествует, чтобы соответствовать как можно меньшее количество раз.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / (l. +? o) /) {print "Нежадное совпадение с 'l', за которым следует одно или"; print «больше символов - это llo, а не llo Wo. \ n»; }

Вывод:

Нежадное совпадение с «l», за которым следует один или несколько символов, - «llo», а не «llo Wo».
*Соответствует предыдущему элементу шаблона ноль или более раз.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / el * o /) {print "За буквой" e "следует ноль ко многим"; напечатайте «l» с последующим «o» (например, eo, elo, ello, elllo). \ n "; }

Вывод:

Есть буква «e», за которой следует от нуля до многих «l», за которыми следует «o» (например, eo, elo, ello, elllo).
{M, N}Обозначает минимальное M и максимальное количество совпадений N.. N может быть опущено, а M может быть 0: {M}соответствует "точно" M раз ; {M,}соответствует "не менее" M раз; {0, N}соответствует "не более" N раз.. x * y + z?, таким образом, эквивалентно x {0,} y {1,} z {0,1}.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / l {1,2} /) {print "Существует подстрока хотя бы с 1"; print "и не более 2 l в $ string1 \ n"; }

Вывод:

В Hello World существует подстрока с минимум 1 и максимум 2 l
[…]Обозначает набор возможных совпадений символов.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / [aeiou] + /) {print "$ string1 содержит одну или несколько гласных. \ n"; }

Вывод:

Hello World содержит одну или несколько гласных.
|Разделяет альтернативные возможности.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / (Hello | Hi | Pogo) /) {print "$ string1 содержит хотя бы одно из Hello, Hi или Pogo."; }

Вывод:

Hello World содержит по крайней мере одно из Hello, Hi или Pogo.
\bСоответствует границе нулевой ширины между символом класса слова (см. Далее) и либо символом, не являющимся классом слова, либо ребром; то же, что и

(^ \ w | \ w $ | \ W \ w | \ w \ W).

$ string1 = "Hello World \ n"; if ($ string1 = ~ m / llo \ b /) {print "Есть слово, которое заканчивается на 'llo'. \ n"; }

Вывод:

Есть слово, оканчивающееся на «llo».
\wСоответствует буквенно-цифровому символу, включая «_»;. то же, что и [A-Za-z0-9_]в ASCII, и
[\ p {Alphabetic} \ p {GC = Mark} \ p {GC = Decimal_Number} \ p {GC = Connector_Punctuation}]

в Unicode, где свойство Alphabeticсодержит больше латинских букв, а свойство Decimal_Numberсодержит больше арабских цифры.

$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / \ w /) {print "Есть хотя бы одна буквенно-цифровая цифра"; print "символ в $ string1 (A-Z, a-z, 0-9, _). \ n"; }

Вывод:

В Hello World есть хотя бы один буквенно-цифровой символ (A-Z, a-z, 0-9, _).
\WСоответствует не буквенно-цифровому символу, за исключением "_";. то же, что и [^ A-Za-z0-9_]в ASCII, и
[^ \ p {Alphabetic} \ p {GC = Mark} \ p {GC = Decimal_Number} \ p {GC = Connector_Punctuation}]

в Юникоде.

$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / \ W /) {print "Пробел между Hello и"; print "Мир не буквенно-цифровой. \ n"; }

Вывод:

 Пробел между Hello и World не является буквенно-цифровым.
\sСоответствует пробельному символу., который в ASCII означает табуляцию, перевод строки, перевод страницы, возврат каретки и пробел;. в Unicode, также соответствует пробелам без разрыва, следующей строке и пробелам с переменной шириной (среди прочего).
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / \ s. * \ s /) {print "В $ string1 есть ДВА пробельных символа, которые могут"; print "разделить другими символами. \ n"; }

Вывод:

В Hello World есть ДВА символа пробела, которые могут быть разделены другими символами.
\SСоответствует чему угодно, кроме пробела.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / \ S. * \ S /) {print "В $ string1 есть ДВА непробельных символа, которые"; print "могут быть разделены другими символами. \ n"; }

Вывод:

В Hello World есть ДВА непробельных символа, которые могут быть разделены другими символами.
\dСоответствует цифре;. то же, что и [0-9]в ASCII;. в Юникоде, то же самое, что и свойство \ p {Digit}или \ p {GC = Decimal_Number}, которое само то же самое, что и \ p {Numeric_Type = Decimal}свойство.
$ string1 = "99 бутылок пива на стене."; if ($ string1 = ~ m / (\ d +) /) {print "$ 1 - первое число в '$ string1' \ n"; }

Вывод:

99 - первое число из «99 бутылок пива на стене».
\DСоответствует нецифровому значению;. то же, что и [^ 0-9]в ASCII или \ P {Digit}в Unicode.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / \ D /) {print "В $ string1 есть хотя бы один символ"; выведите "это не цифра. \ n"; }

Вывод:

В Hello World есть хотя бы один символ, не являющийся цифрой.
^Соответствует началу строки или строки.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / ^ He /) {print "$ string1 начинается с символов 'He'. \ n"; }

Вывод:

Hello World начинается с символов «Он».
$Соответствует концу строки или строки.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / rld $ /) {print "$ string1 - строка или строка"; print "который заканчивается на 'rld'. \ n"; }

Вывод:

Hello World - это строка или строка, заканчивающаяся на 'rld'.
\AСоответствует началу строки (но не внутренней строке).
$ string1 = "Привет \ nМир \ n"; if ($ string1 = ~ m / \ AH /) {print "$ string1 - это строка"; print "который начинается с 'H'. \ n"; }

Вывод:

Hello World - это строка, начинающаяся с 'H'.
\zСоответствует концу строки (но не внутренней строки).
$ string1 = "Hello \ nWorld \ n"; if ($ string1 = ~ m / d \ n \ z /) {print "$ string1 - строка"; print "который заканчивается на 'd \\ n'. \ n"; }

Вывод:

Hello World - это строка, оканчивающаяся на 'd \ n'.
[^…]Соответствует всем символам, кроме заключенных в квадратные скобки.
$ string1 = "Привет, мир \ n"; if ($ string1 = ~ m / [^ abc] /) {print "$ string1 содержит символ, отличный от"; напечатайте "a, b и c. \ n"; }

Вывод:

Hello World содержит символ, отличный от a, b и c.

Индукция

Регулярные выражения часто могут быть созданы («индуцированы» или «изучены») на основе набора примеров строк. Это известно как индукция обычных языков и является частью общей проблемы грамматической индукции в теории вычислительного обучения. Формально, учитывая примеры строк на регулярном языке, а также, возможно, данные примеры строк не на этом регулярном языке, можно создать грамматику для языка, то есть регулярное выражение, которое порождает этот язык. Не все регулярные языки могут быть индуцированы таким образом (см. Идентификацию языка в пределе ), но многие могут. Например, набор примеров {1, 10, 100} и отрицательный набор (контрпримеров) {11, 1001, 101, 0} может быть использован, чтобы вызвать регулярное выражение 1⋅0 * (1, за которым следует ноль или более 0 с).

См. Также

Примечания

Ссылки

Внешние ссылки

В Викиучебнике есть книга по теме: Регулярные выражения
В Викибуке Программирование на R есть страница по теме: Обработка текста
Найдите регулярное выражение в Викисловаре, бесплатный словарь.
Последняя правка сделана 2021-06-03 11:57:21
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте