Лексическая цепочка

редактировать

Последовательность между семантически связанными упорядоченными словами классифицируется как лексическая цепочка . A лексическая цепочка - это последовательность связанных слов в написании, охватывающая короткие (соседние слова или предложения ) или большие расстояния (весь текст). Цепочка - это независимый Это не грамматическая структура текста, и, по сути, это список слов, охватывающий часть связной структуры текста. Лексическая цепочка может обеспечивать контекст для разрешения неоднозначного термина и обеспечивать идентификацию концепции, которую представляет термин.

Рим → столица → город → житель
Википедия → ресурс → сеть

Содержание

1 О
2 Подходы и методы
- 2.1 Лексическая цепочка и встраивание слов
3 См. Также
4 Ссылки

Моррис и Херст вводят термин «лексическая цепочка» как расширение лексической связности. Текст, в котором многие предложения часто связаны семантически. обеспечивает определенную степень преемственности в своих идеях, обеспечивая хорошую связность между предложениями. Определение, используемое для лексической связности, гласит, что согласованность является результатом согласованности, а не наоборот. Сплоченность связана с набором слов, которые принадлежат друг другу из-за абстрактного или конкретного отношения. С другой стороны, согласованность связана с фактическим значением всего текста.

Моррис и Херст определяют, что лексические цепочки используют семантический контекст для интерпретации слов, понятий и предложений.. Напротив, лексическая сплоченность больше сосредоточена на отношениях пар слов. Лексические цепочки расширяют это понятие до порядкового номера соседних слов. Есть две основные причины, по которым лексические цепочки важны:

Возможный контекст для помощи в неоднозначности и сужении проблемы до определенного значения слова; и
Ключи для определения связности и дискурса, таким образом, более глубокого семантико-структурного значения текста.

Метод, представленный Моррисом и Херстом, является первым, кто привносит понятие лексического связь с компьютерными системами через лексические цепочки. Используя свою интуицию, они идентифицируют лексические цепочки в текстовых документах и строят их структуру с учетом наблюдений Халлидея и Хасана. Для этой задачи они рассмотрели пять текстовых документов, в общей сложности 183 предложения из разных и неконкретных источников. Повторяющиеся слова (например, часто встречающиеся слова, местоимения, предложения, вербальные вспомогательные слова) не рассматривались как предполагаемые элементы цепочки, поскольку они не придают большой семантической ценности самой структуре.

Лексические цепочки построены в соответствии с серией отношений между словами в текстовом документе. В основополагающей работе Морриса и Херста они рассматривают внешний тезаурус (Тезаурус Роже ) в качестве своей лексической базы данных для извлечения этих отношений. Лексическая цепочка образована последовательностью слов ${w 1, w 2,…, wn} {\ displaystyle \ {w_ {1}, w_ {2}, \ ldots, w_ {n} \}}$ ${\ displaystyle \ {w_ {1}, w_ {2}, \ ldots, w_ {n} \}}$ появляются в этом порядке, например, любые два последовательных слова $wi, wi + 1 {\ displaystyle w_ {i}, w_ {i + 1}}$ ${\ displaystyle w_ {i}, w_ {i + 1}}$ представляют следующие свойства ( т. е. такие атрибуты, как категория, индексы и указатели в лексической базе данных) :

два слова имеют одну общую категорию в своем индексе;
категория одного из этих слов указывает на другое слово;
одно из слов относится к статье или категории другого слова;
два слова связаны семантически; и
их категории соответствуют общей категории.

Подходы и методы

Использование лексических цепочек в задачах обработки естественного языка (например, схожесть текста, устранение неоднозначности значений слов, кластеризация документов ) широко изучалась в литературе. Барзилай и др. Используют лексические цепочки для составления резюме из текстов. Они предлагают метод, основанный на четырех шагах: сегментация исходного текста, построение лексических цепочек, идентификация надежных цепочек и извлечение значимых предложений. Силбер и Маккой также исследуют реферирование текста, но их подход к построению лексических цепочек работает в линейном времени.

Некоторые авторы используют WordNet для улучшения поиска и оценки лексических цепочек. Буданицкий и Кирст сравнивают несколько измерений семантической дистанции и родства, используя лексические цепочки в сочетании с WordNet. Их исследование пришло к выводу, что показатель сходства Цзян и Конрата дает лучший общий результат. Молдаван и Адриан изучают использование лексических цепочек для поиска тематически связанных слов для вопросно-ответных систем. Это сделано с учетом блеска для каждого synset в WordNet. Согласно их выводам, тематические связи через лексические цепочки улучшают производительность системы ответов на вопросы в сочетании с WordNet. Маккарти и др. представить методику категоризации и поиска наиболее распространенных синсетов в немаркированных текстах с помощью WordNet. В отличие от традиционных подходов (например, BOW ), они рассматривают отношения между терминами, которые не встречаются явно. Эркан и Чичекли исследуют влияние лексических цепочек в задаче извлечения ключевых слов с помощью контролируемого машинного обучения. В Wei et al. объединить лексические цепочки и WordNet для извлечения набора семантически связанных слов из текстов и использования их для кластеризации. Их подход использует онтологическую иерархическую структуру, чтобы обеспечить более точную оценку сходства между терминами во время задачи устранения неоднозначности смысла слов.

Лексическая цепочка и встраивание слов

Несмотря на то, что применимость лексических цепочек разнообразна, мало работы по их изучению с последними достижениями в НЛП, в частности с встраиваниями слов. В лексических цепочках используются определенные шаблоны, найденные в WordNet и используемые для изучения вложений слов. Полученные ими векторы проверяются в задаче на подобие документов . Gonzales et al. использовать смысловые вложения для создания лексических цепочек, интегрированных с нейронной машинной моделью перевода. Mascarelli предлагает модель, в которой используются лексические цепочки для статистического машинного перевода с помощью кодировщика документов. Вместо использования внешней лексической базы данных они используют вложения слов для обнаружения лексических цепочек в исходном тексте.

Ruas et al. предлагают два метода, которые объединяют лексические базы данных, лексические цепочки и встраивания слов, а именно гибкую лексическую цепочку II (FLLC II) и фиксированную лексическую цепочку II (FXLC II). Основная цель как FLLC II, так и FXLC II - более кратко представить совокупность слов по их семантическим значениям. В FLLC II лексические цепочки собираются динамически в соответствии с семантическим содержанием для каждого оцениваемого термина и отношениями с его соседними соседями. Пока существует семантическая связь, связывающая два или более слов, их следует объединить в уникальное понятие. Семантическая связь достигается с помощью WordNet, который определяет основную истину, чтобы указать, какая лексическая структура соединяет два слова (например, гиперонимы, гипонимы, меронимы). Если появляется слово, не имеющее семантического сходства с текущей цепочкой, инициализируется новая лексическая цепочка. С другой стороны, FXLC II разбивает текстовые сегменты на заранее определенные фрагменты, каждый из которых содержит определенное количество слов. В отличие от FLLC II, метод FXLC II группирует определенное количество слов в одну и ту же структуру, независимо от семантического родства, выраженного в лексической базе данных. В обоих методах каждая сформированная цепочка представлена словом, предварительно обученный вектор встраивания слов которого наиболее похож на средний вектор составляющих слов в той же цепочке.

См. Также

Ссылки