Обработка естественного языка

редактировать

Область компьютерных наук и лингвистики

автоматизированный онлайн-помощник, обеспечивающий обслуживание клиентов на веб-странице, пример приложения, в котором обработка естественного языка является основным компонентом.

Обработка естественного языка (NLP ) - это подполе лингвистика, информатика и искусственный интеллект, связанные с взаимодействием между компьютерами и человеческим языком, в частности, как программировать компьютеры для обработки и анализа больших объемов естественного языка данные.

Проблемы с обработкой естественного языка часто связаны с распознаванием речи, пониманием естественного языка и генерацией естественного языка.

Содержание

1 История
- 1.1 Символьное НЛП (1950-е - начало 1990-х)
- 1.2 Статистическое НЛП (1990-е - 2010-е)
- 1.3 Нейронное НЛП (настоящее время)
2 Методы: правила, статистика, нейронные сети
- 2.1 Статистические методы
- 2.2 Нейронные сети
3 Общие задачи НЛП
- 3.1 Обработка текста и речи
- 3.2 Морфологический анализ
- 3.3 Синтаксический анализ
- 3.4 Лексическая семантика (отдельных слов в контексте)
- 3.5 Реляционная семантика (семантика отдельных предложений)
- 3.6 Дискурс (семантика за пределами отдельных предложений)
- 3.7 Приложения НЛП более высокого уровня
4 Познание и НЛП
5 См. также
6 Ссылки
7 Далее чтение

История

Обработка естественного языка берет свое начало в 1950-х годах. Уже в 1950 году Алан Тьюринг опубликовал статью под названием «Вычислительные машины и интеллект », в которой предлагалось то, что сейчас называется тестом Тьюринга в качестве критерия интеллекта, задача, которая включает автоматическую интерпретацию и создание естественного языка, но в то время не сформулирована как проблема, отдельная от искусственного интеллекта.

Символическое НЛП (1950-е - начало 1990-х)

Предпосылка символического НЛП хорошо изложена в эксперименте Джона Сирла Китайская комната : Учитывая набор правил (например, китайский разговорник с вопросами и соответствующими ответами), компьютер имитирует понимание естественного языка (или другие задачи НЛП), применяя эти правила к данным, с которыми он сталкивается.

1950-е годы : Джорджтаунский эксперимент в 1954 году включал полностью автоматический перевод более шестидесяти русских предложений на английский. Авторы утверждали, что в течение трех-пяти лет машинный перевод станет решенной проблемой. Однако реальный прогресс был намного медленнее, и после отчета ALPAC в 1966 году, в котором было обнаружено, что десятилетние исследования не оправдали ожиданий, финансирование машинного перевода резко сократилось. Небольшие дальнейшие исследования в области машинного перевода проводились до конца 1980-х, когда были разработаны первые системы статистического машинного перевода.
1960-е : Некоторые особенно успешные системы обработки естественного языка, разработанные в 1960-х годах, были SHRDLU, система естественного языка, работающая в ограниченных "блоках миров " с ограниченными словарями, и ELIZA, симуляция психотерапевта Роджера, написанная Автор Джозеф Вайценбаум между 1964 и 1966 годами. Практически не используя информации о человеческих мыслях или эмоциях, ELIZA иногда обеспечивала поразительно человеческое взаимодействие. Когда «пациент» превышает очень маленькую базу знаний, ELIZA может дать общий ответ, например, ответив на «Моя голова болит» словами «Почему вы говорите, что у вас болит голова?».
1970-е годы : Во время В 1970-х годах многие программисты начали писать «концептуальные онтологии », которые структурировали реальную информацию в понятные компьютеру данные. Примеры: MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) и Plot Units (Lehnert 1981).). В это время было написано множество первых болтунов (например, PARRY ).
1980-е : 1980-е и начало 1990-х годов знаменуют собой расцвет символических методов в НЛП. время включало исследования синтаксического анализа на основе правил (например, разработка HPSG как вычислительная операционализация генеративной грамматики ), морфологии (например, двухуровневой морфологии), семантики (например,, алгоритм Леска ), справочная информация (например, в рамках теории центрирования) и другие области понимания естественного языка (например, в теории риторической структуры ). Были продолжены другие направления исследований, например, разработка чаттер-ботов с помощью Racter и Jabberwacky. Важным событием (которое в конечном итоге привело к повороту в статистике в 1990-е годы) стало растущее значение количественной оценки в этот период.

Статистическое НЛП (1990-е - 2010-е годы)

До 1980-х годов большинство систем обработки естественного языка основывались на сложных наборах рукописных п правил. Однако, начиная с конца 1980-х годов, произошла революция в обработке естественного языка с появлением алгоритмов машинного обучения для языковой обработки. Это было связано как с постоянным увеличением вычислительной мощности (см. закон Мура ), так и с постепенным уменьшением доминирования теорий лингвистики Хомского (например, трансформационной грамматики ), теоретические основы которого не одобряли корпусной лингвистики, лежащей в основе подхода машинного обучения к обработке языка.

1990-е : многие из первых заметных успехов статистических методов в НЛП произошли в область машинного перевода, особенно благодаря работе в IBM Research. Эти системы могли использовать преимущества существующих многоязычных текстовых корпусов, которые были разработаны Парламентом Канады и Европейским Союзом в результате принятия законов, требующих перевод всех правительственных заседаний на все официальные языки соответствующих систем правления. Однако большинство других систем зависело от корпусов, специально разработанных для задач, реализуемых этими системами, что было (и часто остается) основным ограничением успеха этих систем. В результате большое количество исследований было направлено на методы более эффективного обучения на ограниченных объемах данных.
2000-е годы : с ростом Интернета стало доступно все большее количество необработанных (неаннотированных) языковых данных. с середины 1990-х гг. Таким образом, исследования все больше фокусируются на алгоритмах неконтролируемого и полу-контролируемого обучения. Такие алгоритмы могут учиться на данных, которые не были аннотированы вручную с желаемыми ответами, или с использованием комбинации аннотированных и неаннотированных данных. Как правило, эта задача намного сложнее, чем контролируемое обучение, и обычно дает менее точные результаты для заданного количества входных данных. Однако доступно огромное количество неаннотированных данных (включая, среди прочего, все содержимое World Wide Web ), которые часто могут компенсировать худшие результаты, если используемый алгоритм достаточно низкая временная сложность для практического применения.

Нейронное НЛП (настоящее время)

В 2010-х годах репрезентативное обучение и глубокая нейронная сеть Методы машинного обучения в стиле стали широко распространены в обработке естественного языка, отчасти из-за большого количества результатов, показывающих, что такие методы могут достигать самых современных результатов во многих задачах естественного языка, например, в языковом моделировании, синтаксическом анализе и многие другие.

Методы: правила, статистика, нейронные сети

Раньше многие системы обработки языков проектировались символическими методами, т. Е. Ручным кодированием набора правил в сочетании с поиск по словарю: например, путем написания грамматик или разработки эвристических правил для стемминга.

Более современные системы, основанные на алгоритмах машинного обучения, имеют много преимуществ перед правилами, созданными вручную:

Обучение процедуры, используемые во время машинного обучения, автоматически сосредотачиваются на наиболее распространенных случаях, тогда как при написании правил вручную часто совсем не очевидно, куда следует направить усилия.
В процедурах автоматического обучения могут использоваться алгоритмы статистического вывода для создавать модели, устойчивые к незнакомому вводу (например, содержащему слова или структуры, которые ранее не встречались) и к ошибочному вводу (например, с ошибками в написании слов или случайно пропущенными словами). Как правило, изящная обработка такого ввода с помощью рукописных правил или, в более общем плане, создание систем рукописных правил, которые принимают мягкие решения, чрезвычайно сложно, подвержено ошибкам и требует много времени.
Системы, основанные на автоматическом изучении правил можно сделать более точным, просто предоставив больше входных данных. Однако системы, основанные на правилах, написанных от руки, можно сделать более точными только за счет увеличения сложности правил, что является гораздо более сложной задачей. В частности, существует предел сложности систем, основанных на рукописных правилах, за пределами которого системы становятся все более и более неуправляемыми. Однако создание большего количества данных для ввода в системы машинного обучения просто требует соответствующего увеличения количества отработанных человеко-часов, как правило, без значительного увеличения сложности процесса аннотации.

Несмотря на популярность машинного обучения в исследованиях НЛП, символические методы все еще (2020) широко используются

, когда объем обучающих данных недостаточен для успешного применения методов машинного обучения, например, для машинного перевода языков с низким уровнем ресурсов, таких как предоставляемые Apertium система,
для предварительной обработки в конвейерах NLP, например, tokenization, или
для постобработки и преобразования вывода конвейеров NLP, например, для извлечения знаний на основе синтаксического анализа.

Статистические методы

Со времен так называемой «статистической революции» в конце 1980-х и середине 1990-х годов большая часть исследований в области обработки естественного языка в значительной степени опиралась на машинное обучение. Парадигма машинного обучения вместо этого призывает использовать статистический вывод для автоматического изучения таких правил посредством анализа больших корпусов (множественное число корпусов - это набор документов, возможно, с человеческим или компьютерные аннотации) типичных примеров из реальной жизни.

Многие разные классы алгоритмов машинного обучения были применены к задачам обработки естественного языка. Эти алгоритмы принимают в качестве входных данных большой набор «функций», которые генерируются из входных данных. Однако все больше исследований уделяется статистическим моделям, которые принимают мягкие, вероятностные решения, основанные на присоединении действительных весов к каждой входной характеристике. Такие модели имеют то преимущество, что они могут выражать относительную уверенность многих различных возможных ответов, а не только одного, давая более надежные результаты, когда такая модель включается в качестве компонента более крупной системы.

Некоторые из наиболее ранних используемых алгоритмов машинного обучения, такие как деревья решений, создавали системы жестких правил «если-то», аналогичные существующим рукописным правилам. Однако тегирование части речи ввело использование скрытых марковских моделей для обработки естественного языка, и все больше исследований уделялось статистическим моделям, которые делают мягкие, вероятностные решения, основанные на присоединении действительных весов к характеристикам, составляющим входные данные. языковые модели кэширования, на которых сейчас полагаются многие системы распознавания речи, являются примерами таких статистических моделей. Такие модели, как правило, более надежны при вводе незнакомых входных данных, особенно входных данных, содержащих ошибки (что очень часто встречается в реальных данных), и дают более надежные результаты при интеграции в более крупную систему, состоящую из нескольких подзадач.

Со времен нейронного поворота статистические методы в исследованиях НЛП в значительной степени были заменены нейронными сетями. Однако они по-прежнему актуальны для контекстов, в которых требуется статистическая интерпретируемость и прозрачность.

Нейронные сети

Главный недостаток статистических методов состоит в том, что они требуют сложной разработки функций. Таким образом, с начала 2010-х годов в этой области в значительной степени отказались от статистических методов и перешли на нейронные сети для машинного обучения. Популярные методы включают использование встраиваний слов для захвата семантических свойств слов и увеличение сквозного обучения более высокоуровневым задачам (например, ответы на вопросы) вместо того, чтобы полагаться на конвейер отдельные промежуточные задачи (например, тегирование части речи и синтаксический анализ зависимостей). В некоторых областях этот сдвиг повлек за собой существенные изменения в том, как проектируются системы НЛП, так что подходы, основанные на глубоких нейронных сетях, можно рассматривать как новую парадигму, отличную от статистической обработки естественного языка. Например, термин нейронный машинный перевод (NMT) подчеркивает тот факт, что подходы к машинному переводу, основанные на глубоком обучении, непосредственно изучают преобразования последовательность-последовательность, устраняя необходимость в промежуточных этапах. такие как выравнивание слов и языковое моделирование, которое использовалось в статистическом машинном переводе (SMT).

Общие задачи НЛП

Ниже приводится список некоторых из наиболее часто исследуемых задач обработки естественного языка. Некоторые из этих задач имеют непосредственное реальное применение, в то время как другие чаще служат подзадачами, которые используются для помощи в решении более крупных задач.

Хотя задачи обработки естественного языка тесно взаимосвязаны, для удобства их можно разделить на категории. Ниже приводится приблизительное деление.

Обработка текста и речи

Оптическое распознавание символов (OCR): По изображению, представляющему печатный текст, определите соответствующий текст.

Распознавание речи: Учитывая звуковой отрывок говорящего человека или людей, определяют текстовое представление речи. Это противоположно преобразованию текста в речь и является одной из чрезвычайно сложных проблем, которую в просторечии называют «AI-complete » (см. Выше). В естественной речи почти нет пауз между последовательными словами, и поэтому сегментация речи является необходимой подзадачей распознавания речи (см. Ниже). В большинстве разговорных языков звуки, представляющие последовательные буквы, смешиваются друг с другом в процессе, называемом коартикуляция, поэтому преобразование аналогового сигнала в дискретные символы может быть очень сложным процессом. Кроме того, учитывая, что слова на одном языке произносятся людьми с разными акцентами, программное обеспечение для распознавания речи должно распознавать различные входные данные как идентичные друг другу с точки зрения их текстового эквивалента.
Сегментация речи: Учитывая звуковой фрагмент речи человека или людей, разделите его на слова. Подзадача распознавания речи и обычно группируется с ним.

Преобразование текста в речь: Для данного текста преобразовать эти единицы и создать речевое представление. Преобразование текста в речь может использоваться для помощи слабовидящим.

Сегментация слов (Токенизация ): Разделить кусок непрерывного текста на отдельные слова. Для таких языков, как английский, это довольно тривиально, поскольку слова обычно разделяются пробелами. Однако некоторые письменные языки, такие как китайский, японский и тайский, не отмечают границы слов в такой способ, и для этих языков сегментация текста является важной задачей, требующей знания словаря и морфологии слов в языке. Иногда этот процесс также используется в случаях, подобных создание пакета слов (BOW) при интеллектуальном анализе данных.

Морфологический анализ

Лемматизация: Задача удаления только флективных окончаний и возврата базовой словарной формы слова, также известного как лемма.
Морфологическая сегментация: Разделите слова на отдельные морфемы и определите класс морфем. Сложность этой задачи сильно зависит от сложности морфологии (т. е. структуры слов) рассматриваемого языка. Английский имеет довольно простую морфологию, особенно флективную морфологию, и поэтому часто можно полностью игнорировать эту задачу и просто моделировать все возможные формы слова (например, «открыть, открыть, открылся, открылся ") отдельными словами. Однако в таких языках, как турецкий или Meitei, сильно агглютинированный индийский язык, такой подход невозможен, поскольку каждая словарная статья содержит тысячи возможных слов.
Маркировка части речи: Для данного предложения определите часть речи (POS) для каждого слова. Многие слова, особенно общие, могут служить несколькими частями речи. Например, «книга» может быть существительным («книга на столе») или глаголом («забронировать рейс»); «набор» может быть существительным, глаголом или прилагательным ; и «out» может быть любой из пяти разных частей речи. В некоторых языках такой двусмысленности больше, чем в других. Языки с небольшой флективной морфологией, такие как английский, особенно подвержены такой двусмысленности. Китайский склонен к такой двусмысленности, потому что это тональный язык во время вербализации. Такое перегибание нелегко передать через объекты, используемые в орфографии для передачи намеченного значения.

Выделение основы: Процесс приведения слов с изменением (или иногда производных) к их корневой форме. (например, «close» будет корнем для «closed», «close», «close», «close» и т. д.).

Синтаксический анализ

Введение в грамматику: Создание формальной грамматики, который описывает синтаксис языка.
Нарушение предложения (также известное как «устранение неоднозначности границ предложения "): Для фрагмента текста найдите границы предложения. Границы предложений часто отмечаются точки или другие знаки препинания, но эти же символы могут служить другим целям (например, отмечать сокращений ).
Разбор: Определить дерево синтаксического анализа ( грамматический анализ) данного предложения. грамматика для естественных языков является неоднозначной, и типичные предложения имеют несколько возможных анализов: возможно, что удивительно, для типичного предложения может быть тысячами потенциальных синтаксических анализов (большинство из которых покажется человеку совершенно бессмысленным). Существует два основных типа синтаксического анализа: синтаксический анализ зависимостей и синтаксический анализ группы интересов. Это касается отношений между словами в предложении (маркировка таких вещей, как первичные объекты и предикаты), тогда как синтаксический анализ избирательного округа фокусируется на построении дерева синтаксического анализа с использованием вероятностной контекстно-свободной грамматики (PCFG) (см. также стохастическая грамматика ).

Лексическая семантика (отдельных слов в контексте)

Лексическая семантика: Каково вычислительное значение отдельных слов в контексте?
Распределенная семантика: Как мы можем изучить семантические представления из данных ?
Распознавание именованных сущностей (NER): Для заданного потока текста определите, какие элементы в тексте сопоставляются с именами собственными, такими как люди или места, и каков тип каждого такого имени есть (например, лицо, местонахождение, организация). Хотя использование заглавных букв может помочь в распознавании именованных сущностей на таких языках, как английский, эта информация не может помочь в определении типа именованных сущностей и, в любом случае, часто бывает неточной или недостаточной. Например, первая буква предложения также пишется с заглавной буквы, а именованные объекты часто охватывают несколько слов, только некоторые из которых пишутся с заглавной буквы. Более того, многие другие языки в незападных шрифтах (например, китайский или арабский ) вообще не имеют заглавных букв, и даже языки с заглавными буквами могут не всегда использовать их для различения имен. Например, немецкий использует все существительные с заглавной буквы, независимо от того, являются ли они именами, а французский и испанский не используют заглавные буквы в именах, которые служат прилагательные.

Анализ тональности (см. Также мультимодальный анализ тональности ): Извлечение субъективной информации обычно из набора документов, часто с использованием онлайн-обзоров для определения «полярности» в отношении конкретных объектов. Это особенно важно полезен для выявления тенденций общественного мнения в социальных сетях, для маркетинга.

: Целью извлечения терминологии является автоматическое извлечение релевантных терминов из заданного корпуса.
Устранение неоднозначности слов: Многие слова имеют более одного означает ; мы должны выбрать значение, которое имеет наибольший смысл в контексте. Для этой проблемы нам обычно дают список слов и связанных смыслов слов, например, из словаря или онлайн-ресурса например WordNet.

Реляционная семантика (семантика отдельных предложений)

Извлечение отношений: Для данного фрагмента текста определите отношения между именованными объектами (например, (кто женат на ком).
Семантический анализ: Для данного фрагмента текста (обычно предложения) создать формальное представление его семантики в виде графика (например, в анализе AMR ) или в соответствии с логическим формализмом (например, в разборе DRT ). Эта задача обычно включает аспекты нескольких более элементарных задач НЛП из семантики (например, обозначение семантических ролей, устранение неоднозначности смысла слов) и может быть расширена, чтобы включить полноценный анализ дискурса (например, анализ дискурса, кореферентность; см. Понимание естественного языка ниже).
Семантическая маркировка ролей (см. Также неявную семантическую маркировку ролей ниже): Для одного предложения определите и устраните неоднозначность семантических предикатов (например, вербальные кадры ), затем определите и классифицируйте элементы фрейма (семантические роли ).

Дискурс (семантика за пределами отдельных предложений)

Разрешение Coreference: Для данного предложения или большего фрагмента текста определите, какие слова («упоминания») относятся к тем же объектам («сущности»). Разрешение анафоры является конкретным примером этой задачи и конкретно касается сопоставления местоимений с существительными или именами, к которым они относятся. Более общая задача разрешения кореференции также включает идентификатор определение так называемых «мостовых отношений», включающих ссылающиеся выражения. Например, в таком предложении, как «Он вошел в дом Джона через парадную дверь», «входная дверь» является отсылающим выражением, а связующее отношение, которое необходимо идентифицировать, - это тот факт, что упоминаемая дверь является входной дверью дома Джона. дома (а не какой-либо другой структуры, на которую также можно было бы сослаться).
Анализ дискурса: Эта рубрика включает несколько связанных задач. Одной из задач является синтаксический анализ дискурса, то есть определение структуры дискурса связного текста, то есть характера дискурсивных отношений между предложениями (например, разработка, объяснение, контраст). Другой возможной задачей является распознавание и классификация речевых актов в фрагменте текста (например, вопрос типа «да-нет», вопрос содержания, утверждение, утверждение и т. Д.).

Неявная семантическая маркировка ролей: Для одного предложения идентифицируйте и устраните неоднозначность семантических предикатов (например, вербальные фреймы ) и их явные семантические роли в текущем предложении (см. Раздел «Маркировка семантических ролей» выше). Затем определите семантические роли, которые явно не реализованы в текущем предложении, классифицируйте их на аргументы, которые явно реализованы в другом месте текста, и те, которые не указаны, и сопоставьте первые с локальным текстом. Тесно связанной задачей является нулевое разрешение анафоры, т. Е. Расширение разрешения кореферентности на языки с упразднением.

Распознавание текстового следствия: Учитывая два фрагмента текста, определить, влечет ли один из истинных за другой, влечет ли за собой другой отрицание, или позволяет другому быть истинным или ложным.

Сегментация темы и распознавание: Для данного фрагмента текста разделите его на сегменты, каждый из которых посвящен теме, и определите тема сегмента.

Приложения НЛП более высокого уровня

Автоматическое суммирование (суммирование текста): Создание удобочитаемой сводки фрагмента текста. Часто используется для обобщения текста известного типа, такого как исследовательские работы, статьи в финансовом разделе газеты.
Создание книги: Не собственно задача НЛП, а расширение Генерация естественного языка и другие задачи НЛП - это создание полноценных книг. Первая книга, созданная машиной, была создана системой, основанной на правилах, в 1984 году (Рактер, Борода полицейского наполовину построена). Первая опубликованная работа нейронной сети была опубликована в 2018 году: 1 Дорога, позиционируемая как роман, содержит шестьдесят миллионов слов. Обе эти системы в основном являются сложными, но бессмысленными (бессемантическими) языковыми моделями. Первая научная книга, созданная с помощью машин, была опубликована в 2019 году (Beta Writer, Lithium-Ion Batteries, Springer, Cham). В отличие от Racter и 1 the Road, это основано на фактических знаниях и на обобщении текста.
Управление диалогом: Компьютерные системы, предназначенные для общения с человеком.
Машинный перевод: Автоматический перевод текста от одного человека язык на другой. Это одна из самых сложных проблем, которая относится к классу проблем, в просторечии называемому «AI-complete », то есть требующим всех различных типов знаний, которыми обладают люди (грамматика, семантика, факты о реальном мире и т. д.) для правильного решения.
Генерация естественного языка (NLG):: Преобразование информации из компьютерных баз данных или семантических намерений в читаемый человеческий язык.
Понимание естественного языка (NLU): Преобразование фрагментов текста в более формальные представления, такие как логические структуры первого порядка, которыми компьютерные программы легче манипулировать. Понимание естественного языка включает в себя определение предполагаемой семантики из множества возможных семантик, которые могут быть получены из выражения естественного языка, которое обычно принимает форму организованных обозначений понятий естественного языка. Введение и создание языковой метамодели и онтологии - эффективные, однако эмпирические решения. Явная формализация семантики естественного языка без путаницы с неявными предположениями, такими как предположение о закрытом мире (CWA) против предположения об открытом мире или субъективное Да / Нет против объективного Истина / Для построения основы формализации семантики ожидается ложь.
Ответ на вопрос: Определите ответ на вопрос на человеческом языке. Типичные вопросы имеют конкретный правильный ответ (например, «Какая столица Канады?»), Но иногда также рассматриваются открытые вопросы (например, «В чем смысл жизни?»). В последних работах рассматриваются еще более сложные вопросы.

Познание и НЛП

Познание относится к «умственному действию или процессу приобретения знания и понимания посредством мысли, опыта и чувств». Когнитивный. наука - это междисциплинарное научное исследование разума и его процессов. Когнитивная лингвистика - это междисциплинарный раздел лингвистики, сочетающий знания и исследования как психологии, так и лингвистики. Джордж Лакофф предлагает методологию построения алгоритмов обработки естественного языка (НЛП) с точки зрения когнитивной науки, наряду с выводами когнитивной лингвистики :

Первым определяющим аспектом этой когнитивной задачи НЛП является применение теории Концептуальной метафоры, объясненной Лакоффом как «понимание одной идеи с точки зрения другой», которая дает представление о намерениях автора.

Например, рассмотрим некоторые значения на английском языке слово «большой». При использовании в качестве сравнительного, например, «Это большое дерево», вероятный вывод о намерениях автора состоит в том, что автор использует слово «большой», чтобы подразумевать утверждение о том, что дерево является «Физически большие» по сравнению с другими деревьями или опытом авторов. При использовании в качестве глагола состояния, например, «Завтра большой день», вероятный вывод о намерении автора заключается в том, что слово «большой» используется для обозначения «важности». Эти примеры представлены не для того, чтобы быть полными, а просто как индикаторы импликации идеи Концептуальной метафоры. Смысл других обычаев, таких как «Она большая личность», останется несколько неоднозначным как для человека, так и для когнитивного алгоритма НЛП без дополнительной информации.

Это приводит ко второму определяющему аспекту этой когнитивной задачи НЛП, а именно вероятностной контекстно-свободной грамматике (PCFG), которая позволяет когнитивным алгоритмам НЛП присваивать относительные меры значения слову, фраза, предложение или фрагмент текста, основанные на информации, представленной до и после анализируемого фрагмента текста. Математическое уравнение для таких алгоритмов представлено в патенте США 9269353 :

RMM (токен N) = PMM (токен N) × 1 2 d (∑ i = - dd ((PMM (токен N - 1) × PF (токен N, токен N - 1)) я) {\ displaystyle {RMM (token_ {N})} = {PMM (token_ {N})} \ times {\ frac {1} {2d}} \ left (\ сумма _ {i = -d} ^ {d} {((PMM (token_ {N-1})} \ times {PF (token_ {N}, token_ {N-1})) _ {i}} \ right)}

{\ displaystyle {RMM (token_ {N})} = {PMM (token_ {N})} \ times {\ frac {1} {2d}} \ left (\ sum _ {i = -d} ^ {d} {((PMM (token_ {N-1})} \ times {PF (чтобы ken_ {N}, token_ {N-1})) _ {i}} \ right)}

Где,. RMM - относительная мера значения. токен - любой блок текста, предложения, фразы или слова. N, - количество анализируемых токенов. PMM, - это вероятная мера значения, основанная на корпусе. d, - это расположение токена в последовательности N-1 токены. PF, это функция вероятности, характерная для языка

См. также

Ссылки

Дополнительная литература

На Викискладе есть материалы, связанные с обработкой естественного языка.