Связывание сущностей

редактировать

В обработке естественного языка, сущность, связывающая, также обозначается как связывание именованных сущностей (NEL), разрешение неоднозначности именованных сущностей (NED), распознавание именованных сущностей и устранение неоднозначности (NERD) или нормализация именованных сущностей (NEN) - это задача присвоения уникальной идентичности сущностям (например, известным лицам, местам или компаниям), упомянутым в тексте. Например, учитывая предложение «Париж - столица Франции», идея состоит в том, чтобы определить, что «Париж» относится к городу Париж, а не к Пэрис Хилтон или любому другому. субъект, который можно было бы назвать "Париж". Связывание сущностей отличается от распознавания именованных сущностей (NER) тем, что NER идентифицирует появление именованных сущностей в тексте, но не определяет, какой это конкретный объект (см. Отличия от других методов ).

При связывании сущностей каждая именованная сущность связана с уникальным идентификатором. Часто этот идентификатор соответствует странице Википедии.

Содержание

1 Введение
- 1.1 Приложения
- 1.2 Проблемы при связывании сущностей
- 1.3 Отличия от других методов
2 Подходы к связыванию сущностей
- 2.1 Связывание объектов на основе текста
- 2.2 Связывание объектов на основе графиков
- 2.3 Связывание математических объектов
3 См. Также
4 Ссылки

Введение

При связывании объектов слова интересы (имена лиц, местоположений и компаний) отображаются из входящего текста в соответствующие уникальные сущности в целевой базе знаний. Интересующие слова называются именованными объектами (NE), упоминаниями или поверхностными формами. Целевая база знаний зависит от предполагаемого приложения, но для систем связывания сущностей, предназначенных для работы с текстом в открытом домене, обычно используются базы знаний, полученные из Википедии (например, Викиданные или DBpedia ). В этом случае каждая отдельная страница Википедии рассматривается как отдельный объект. Методы связывания сущностей, которые сопоставляют именованные сущности с сущностями Википедии, также называются викификацией .

Если снова рассмотреть пример предложения «Париж - столица Франции», ожидаемый результат системы связывания сущностей будет Париж и Франция. Эти универсальные указатели ресурсов (URL-адреса) могут использоваться как уникальные универсальные идентификаторы ресурсов (URI) для сущностей в базе знаний. Использование другой базы знаний вернет разные URI, но для баз знаний, созданных на основе Википедии, существуют однозначные сопоставления URI.

В большинстве случаев базы знаний создаются вручную, но в приложениях с большим размером текстовые корпуса доступны, база знаний может быть выведена автоматически из доступного текста.

Связывание сущностей - важный шаг для соединения веб-данных с базами знаний, что полезно для аннотирования огромного количества сырые и часто зашумленные данные в сети и вносят свой вклад в видение семантической сети. Помимо связывания сущностей, существуют другие важные шаги, включая, помимо прочего, извлечение событий, связывание событий и т. Д.

Приложения

Связывание сущностей полезно в полях, которые должны извлекать абстрактные представления из текст, как это бывает при анализе текста, рекомендательных системах, семантическом поиске и чат-ботах. Во всех этих полях понятия, относящиеся к приложению, отделены от текста и других не имеющих смысла данных.

Например, типичной задачей, выполняемой поисковыми системами, является поиск похожих документов. к одному, указанному в качестве входных данных, или для поиска дополнительной информации о лицах, упомянутых в нем. Рассмотрим предложение, содержащее выражение «столица Франции»: без привязки сущностей поисковая система, просматривающая содержание документов, не сможет напрямую получить документы, содержащие слово «Париж», что приведет к так называемому ложноотрицательные (FN). Хуже того, поисковая система может выдавать ложные совпадения (или ложные срабатывания (FP)), например, при поиске документов, в которых упоминается «Франция» как страна.

Существует множество подходов, ортогональных связыванию сущностей, для извлечения документов, подобных входному документу. Например, скрытый семантический анализ (LSA) или сравнение внедрений документов, полученных с помощью doc2vec. Однако эти методы не позволяют использовать такой же детализированный контроль, который предлагается при связывании сущностей, поскольку они будут возвращать другие документы вместо создания высокоуровневых представлений исходного. Например, получение схематической информации о "Париже", представленной информационными блоками Википедии, было бы гораздо менее простым, а иногда и невозможным, в зависимости от сложности запроса.

Более того, связывание сущностей имеет был использован для повышения производительности систем поиска информации и повышения производительности поиска в электронных библиотеках. Связывание сущностей также является ключевым входом для семантического поиска.

Проблемы при связывании сущностей

Система связывания сущностей должна иметь дело с рядом проблем, прежде чем ее можно будет использовать в реальных приложениях. Некоторые из этих проблем присущи задаче связывания сущностей, например неоднозначность текста, в то время как другие, такие как масштабируемость и время выполнения, становятся актуальными при рассмотрении использования таких систем в реальной жизни.

Варианты имени : один и тот же объект может отображаться с текстовыми представлениями. Источники этих вариантов включают аббревиатуры (Нью-Йорк, Нью-Йорк), псевдонимы (Нью-Йорк, Большое Яблоко) или варианты написания и ошибки (Нью-йокр).

Неоднозначность : одно и то же упоминание часто может относиться ко многим различным объектам, в зависимости от контекста, поскольку многие имена сущностей имеют тенденцию быть многозначными (т.е. имеют несколько значений). Слово Париж, помимо прочего, могло относиться к столице Франции или к Пэрис Хилтон. В некоторых случаях (например, в столице Франции) текстовое сходство между текстом упоминания и фактическим целевым объектом (Париж) отсутствует.

Отсутствие : иногда некоторые именованные объекты могут не иметь правильной ссылки на объект в целевой базе знаний. Это может произойти при работе с очень специфическими или необычными объектами или при обработке документов о недавних событиях, в которых могут быть упоминания лиц или событий, для которых еще нет соответствующей сущности в базе знаний. Другая распространенная ситуация, в которой отсутствуют объекты, - это использование баз знаний для конкретной предметной области (например, базы знаний по биологии или базы данных фильмов). Во всех этих случаях система связывания сущностей должна возвращать ссылку на сущность NIL. Понять, когда возвращать прогноз NILнепросто, и было предложено много разных подходов; например, путем установления порога некоторой степени достоверности в системе связывания сущностей или путем добавления дополнительной сущности NILв базу знаний, которая обрабатывается так же, как и другие сущности. Более того, в некоторых случаях предоставление неверного, но связанного прогноза связи между объектами может быть лучше, чем полное отсутствие результата с точки зрения конечного пользователя.

Масштабируемость и скорость : желательно для системы связи промышленных объектов чтобы предоставить результаты в разумные сроки, а зачастую и в режиме реального времени. Это требование критично для поисковых систем, чат-ботов и систем связывания сущностей, предлагаемых платформами анализа данных. Обеспечение малого времени выполнения может быть сложной задачей при использовании больших баз знаний или при обработке больших документов. Например, Википедия содержит около 9 миллионов сущностей и более 170 миллионов взаимосвязей между ними.

Развитие информации : система связывания сущностей должна также иметь дело с развивающейся информацией и легко интегрировать обновления в база знаний. Проблема развития информации иногда связана с проблемой недостающих сущностей, например, при обработке недавних новостных статей, в которых есть упоминания о событиях, для которых нет соответствующей записи в базе знаний из-за их новизны.

Несколько языков : системы связывания сущностей могут поддерживать запросы, выполняемые на нескольких языках. В идеале, точность системы связывания объектов не должна зависеть от языка ввода, и объекты в базе знаний должны быть одинаковыми на разных языках.

Отличия от других методов

Связывание объектов также известно как устранение неоднозначности именованных сущностей (NED) и глубоко связан с викификацией и связью записей. Определения часто размыты и незначительно различаются у разных авторов: Alhelbawy et al. рассматривать связывание сущностей как более широкую версию NED, поскольку NED должен предполагать, что сущность, которая правильно соответствует определенному упоминанию сущности с текстовым именем, находится в базе знаний. Системы связывания сущностей могут иметь дело со случаями, когда в справочной базе знаний отсутствует запись для названной сущности. Другие авторы не делают такого различия и используют эти два имени как взаимозаменяемые.

Викификация - это задача связывания текстовых упоминаний с объектами в Википедии (как правило, ограничение объема английской Википедии в случае межъязыковой викификации).

Связь записей (RL) считается более широкой областью, чем связывание сущностей, и заключается в поиске записей в нескольких и часто разнородных наборах данных, которые относятся к одному и тому же объекту. Связь с записями - ключевой компонент для оцифровки архивов и объединения нескольких баз знаний.

Распознавание именованных сущностей определяет местонахождение и классифицирует именованные сущности в неструктурированном тексте по заранее определенным категориям, таким как имена, организации, местоположения и Больше. Например, следующее предложение:

Париж - столица Франции.

будет обработано системой NER для получения следующего вывода:

[Париж ] Город - это столица [Франция ] Страна.

Распознавание именованных сущностей обычно является этапом предварительной обработки системы связывания сущностей, так как может быть полезно заранее знать, какие слова должны быть связаны с сущностями база знаний.

Разрешение Coreference определяет, относятся ли несколько слов в тексте к одному и тому же объекту. Например, может быть полезно понять слово, к которому относится местоимение. Рассмотрим следующий пример:

Париж - столица Франции. Это также самый большой город во Франции.

В этом примере алгоритм разрешения кореферентности определит, что местоимение Оно относится к Парижу, а не к Франции или другому объекту. Заметное отличие от связывания сущностей состоит в том, что Coreference Resolution не присваивает какой-либо уникальный идентификатор совпадающим словам, а просто говорит, относятся ли они к одной и той же сущности или нет.

Подходы к связыванию сущностей

Связывание сущностей было горячей темой в промышленности и академических кругах в последнее десятилетие. Однако на сегодняшний день большинство существующих проблем все еще не решены, и было предложено множество систем связывания сущностей с сильно различающимися сильными и слабыми сторонами.

В общих чертах, современные системы связывания сущностей могут быть разделены на две категории:

Подходы на основе текста, которые используют текстовые функции, извлеченные из больших текстовых корпусов (например, Частота термина - частота обратного документа (Tf-Idf), совпадение слов вероятности возникновения и т. д.).
Подходы на основе графов, которые используют структуру графов знаний для представления контекста и связи сущностей.

Часто системы связывания сущностей не могут быть строго отнесены к какой-либо из категорий, но они используют графы знаний, которые были обогащены дополнительными текстовыми функциями, извлеченными, например, из текстовых корпусов, которые использовались для построения самих графов знаний.

Представление основных шагов в алгоритме связывания сущностей. Большинство алгоритмов связывания сущностей состоят из начального этапа распознавания именованных сущностей, на котором именованные сущности находятся в исходном тексте (здесь, Париж и Франция), и последующего шага, на котором каждая именованная сущность связана с соответствующим ей уникальным идентификатором ( здесь, страница в Википедии). Этот последний шаг часто выполняется путем создания небольшого набора идентификаторов кандидатов для каждой именованной сущности и путем выбора наиболее многообещающего кандидата в отношении выбранной метрики.

Связывание сущностей на основе текста

Основная работа Кучерсан в 2007 году предложил одну из первых систем связывания сущностей, появившихся в литературе, и решил задачу викификации, связывая текстовые упоминания со страницами Википедии. Эта система разделяет страницы на страницы сущностей, значений или списков, используемых для присвоения категорий каждой сущности. Набор сущностей, представленных на каждой странице сущности, используется для построения контекста сущности. Последний этап связывания сущностей - это коллективное устранение неоднозначности, выполняемое путем сравнения двоичных векторов, полученных из созданных вручную функций, и из контекста каждой сущности. Система связывания сущностей Cucerzan все еще используется в качестве основы для многих недавних работ.

Работа Rao et al. это хорошо известная статья в области связывания сущностей. Авторы предлагают двухэтапный алгоритм для связывания именованных сущностей с сущностями в целевой базе знаний. Сначала выбирается набор объектов-кандидатов с использованием сопоставления строк, сокращений и известных псевдонимов. Затем лучшая ссылка среди кандидатов выбирается с помощью ранжирующей машины векторов поддержки (SVM), которая использует лингвистические особенности.

Последние системы, такие как предложенная Цаем и др., Используют вложения слов, полученные с помощью модели skip-gram в качестве языковых функций, и могут применяться к любому языку, если предоставляется большой корпус для построения встраиваемых слов. Как и в большинстве систем связывания сущностей, связывание выполняется в два этапа, с первоначальным выбором объектов-кандидатов и SVM с линейным ранжированием в качестве второго этапа.

Были опробованы различные подходы к решению проблемы неоднозначности сущностей. В оригинальном подходе Милна и Виттена контролируемое обучение используется с использованием якорных текстов объектов Википедии в качестве обучающих данных. Другие подходы также собирали данные обучения на основе однозначных синонимов. Kulkarni et al. использовали общее свойство, состоящее в том, что тематически согласованные документы относятся к сущностям, принадлежащим к сильно связанным типам.

Связывание сущностей на основе графа

Современные системы связывания сущностей не ограничивают свой анализ текстовыми функциями, созданными из входных документов или текстовые корпуса, но использовать большие графы знаний, созданные на основе баз знаний, таких как Википедия. Эти системы извлекают сложные функции, которые используют топологию графа знаний или многоступенчатые связи между объектами, которые могут быть скрыты простым анализом текста. Более того, создание многоязычных систем связывания на основе обработки естественного языка (NLP) по своей сути сложно, так как требует либо больших текстовых корпусов, которые часто отсутствуют для многих языков, либо созданных вручную правил грамматики, которые сильно различаются. среди языков. Han et al. предложить создание графа неоднозначности (подграф базы знаний, содержащий объекты-кандидаты). Этот график используется для чисто коллективной процедуры ранжирования, которая находит наиболее подходящую ссылку для каждого текстового упоминания.

Еще один известный подход к связыванию сущностей - AIDA, который использует серию сложных алгоритмов графа и жадный алгоритм, который идентифицирует последовательные упоминания в плотном подграфе, также учитывая сходство контекста и особенности важности вершин для выполнения коллективного устранения неоднозначности. 74>

Ранжирование графика (или ранжирование вершин) обозначает такие алгоритмы, как PageRank (PR) и поиск по темам, вызванный гиперссылками (HITS), цель которых - присвоить оценку каждая вершина, которая представляет ее относительную важность в общем графике. Система связывания сущностей, представленная в Alhelbawy et al. использует PageRank для связывания собирательных сущностей в графе устранения неоднозначности и для понимания того, какие сущности более тесно связаны друг с другом и представляют собой лучшую связь.

Математическая сущность, связывающая

Математические выражения (символы и формулы) могут быть связаны с семантическими объектами (например, статьи Википедии или элементы Викиданных ), помеченные их значениями на естественном языке. Это важно для устранения неоднозначности, поскольку символы могут иметь разные значения (например, "E" может быть "энергией" или "ожидаемым значением" и т. Д.). Процесс связывания математических сущностей можно упростить и ускорить с помощью рекомендаций по аннотации, например, с помощью системы «AnnoMathTeX», размещенной на Wikimedia.