Распознавание именованных сущностей

редактировать
Извлечение упоминаний именованных сущностей в неструктурированном тексте в заранее определенные категории

Распознавание именованных сущностей (NER ) (также известный как ( named)идентификатор объекта, фрагмент объекта и извлечение объекта ) является подзадача извлечения информации, которая стремится найти и классифицировать именованные объекты, упомянутые в неструктурированном тексте, по заранее определенным категориям, таким как имена людей, организации, местоположения, медицинские коды, выражения времени, количества, денежные значения, проценты и т. д.

Большинство исследований систем NER / NEE было структурировано как взятие неаннотированного блока текста, такого как этот:

Джим купил 300 акций Acme Corp. в 2006 году.

И создал аннотированный блок текста, в котором выделены названия лиц:

[Джим] Человек купил 300 акций [Acme Corp. ] Организация в [2006] Время.

В этом примере e, имя человека, состоящее из одного токена, названия компании с двумя токенами и временного выражения, было обнаружено и классифицировано.

Современные системы NER для английского языка обеспечивают производительность, близкую к человеческой. Например, лучшая система, вводящая MUC-7, набрала 93,39% от F-меры, в то время как аннотаторы-люди набрали 97,60% и 96,95%.

Содержание

  • 1 Именованный объект платформы распознавания
  • 2 Определение проблемы
    • 2.1 Формальная оценка
  • 3 Подходы
  • 4 Области проблемы
  • 5 Текущие проблемы и исследования
  • 6 См. также
  • 7 Ссылки

Именованный объект платформы распознавания

Известные платформы NER включают:

  • GATE из коробки поддерживает NER на многих языках и в различных доменах, его можно использовать через графический интерфейс и Java API.
  • OpenNLP включает основанное на правилах и статистическое распознавание именованных сущностей.
  • SpaCy обеспечивает быстрое статистическое NER, а также визуализатор именованных сущностей с открытым исходным кодом.

Определение проблемы

В выражении named entity слово named ограничивает задачу теми объектами, для которых одна или несколько строк, таких как слова или фразы, (справедливо) последовательно обозначают некоторый референт. Это тесно связано с жесткими обозначениями, как определено в Крипке, хотя на практике NER имеет дело со многими именами и референтами, которые не являются философски «жесткими». Например, автомобильная компания, созданная Генри Фордом в 1903 году, может называться Ford или Ford Motor Company, хотя «Ford» может также относиться ко многим другим организациям (см. Ford ). Жесткие обозначения включают имена собственные, а также термины для определенных биологических видов и веществ, но исключают местоимения (например, «оно»; см. разрешение кореферентности ), описания, которые выделяют референт по его свойствам (см. Также De dicto and de re ), а также наименования видов вещей в отличие от отдельных лиц (например, «Банк»).

Полное распознавание именованных сущностей часто разбивается концептуально и, возможно, также в реализациях, как две отдельные проблемы: обнаружение имен и классификация имен по типу сущности, на которую они ссылаются. кому (например, человеку, организации, местонахождению и др.). Первый этап обычно упрощается до проблемы сегментации: имена определяются как непрерывные промежутки токенов без вложенности, так что «Bank of America» представляет собой одно имя, не учитывая тот факт, что внутри этого имени подстрока «America» само по себе имя. Эта проблема сегментации формально похожа на разбиение на части. Второй этап требует выбора онтологии для организации категорий вещей.

Временные выражения и некоторые числовые выражения (например, деньги, проценты и т. Д.) Также могут рассматриваться как именованные сущности в контексте задачи NER. Хотя некоторые примеры этих типов являются хорошими примерами жестких обозначений (например, 2001 год), существует также много недопустимых (например, я беру отпуск в «июне»). В первом случае 2001 год относится к 2001 году по григорианскому календарю. Во втором случае месяц июнь может относиться к месяцу неопределенного года (прошедший июнь, следующий июнь, каждый июнь и т. Д.). Можно утверждать, что определение именованного объекта в таких случаях ослаблено по практическим соображениям. Таким образом, определение термина "именованная сущность" не является строгим, и его часто приходится объяснять в контексте, в котором он используется.

Некоторые иерархии именованных типов сущностей были предложены в литературе.. Категория BBN, предложенная в 2002 году, используется для ответов на вопросы и состоит из 29 типов и 64 подтипов. Расширенная иерархия Sekine, предложенная в 2002 году, состоит из 200 подтипов. Совсем недавно, в 2011 году, Риттер использовал иерархию, основанную на общих типах сущностей Freebase в новаторских экспериментах по NER над текстом социальных сетей.

Формальная оценка

Для оценки качества вывода системы NER было определено несколько показателей. Обычные меры называются точность, отзыв и оценка F1. Однако остается несколько вопросов о том, как рассчитать эти значения.

Эти статистические показатели работают достаточно хорошо для очевидных случаев точного обнаружения или отсутствия реального объекта; и для поиска не-сущности. Однако NER может потерпеть неудачу по многим другим причинам, многие из которых, возможно, являются «частично правильными», и не должны считаться полным успехом или неудачей. Например, идентификация реального объекта, но:

  • с меньшим количеством токенов, чем желательно (например, пропущенный последний токен "John Smith, MD")
  • с большим количеством токенов, чем требуется (например, включая первое слово "The University of MD")
  • разделение смежных объектов по-разному (например, обработка "Smith, Jones Robinson" как 2 против 3 объектов)
  • присвоение ему совершенно неправильного тип (например, назвать личное имя организацией)
  • присвоить ему связанный, но неточный тип (например, «вещество» против «наркотика» или «школа» против «организации»)
  • правильная идентификация сущности, когда то, что хотел пользователь, было сущностью меньшего или большего размера (например, определение «Джеймс Мэдисон» как личное имя, когда оно является частью «Университета Джеймса Мэдисона». Некоторые системы NER налагают ограничение, согласно которому объекты не могут перекрываться или вкладываться друг в друга, что означает, что в некоторых случаях нужно делать произвольный выбор или выбор, связанный с конкретной задачей.

Один слишком простой метод измерения точности acy - это просто подсчет того, какая часть всех токенов в тексте была правильно или неправильно идентифицирована как часть ссылок на сущности (или как сущности правильного типа). Это страдает как минимум двумя проблемами: во-первых, подавляющее большинство токенов в реальном тексте не являются частью имен сущностей, поэтому базовая точность (всегда предсказывающая «не сущность») чрезвычайно высока, обычно>90%; и во-вторых, неправильное предсказание полного диапазона имени объекта не наказывается должным образом (обнаружение только имени человека, когда следует его фамилия, может быть оценено как точность ½).

На научных конференциях, таких как CoNLL, вариант оценки F1 был определен следующим образом:

  • Точность - это количество спрогнозированных интервалов имен сущностей, которые точно совпадают. с промежутками в данных оценки золотой стандарт. Т.е. когда [Person Hans] [Person Blick] предсказано, но требуется [Person Hans Blick], точность предсказанного имени равна нулю. Затем точность усредняется по всем прогнозируемым именам объектов.
  • Напоминание - это аналогичное количество имен в золотом стандарте, которые появляются в одном и том же месте в прогнозах.
  • Оценка F1 составляет гармоническое среднее из этих двух.

Из приведенного выше определения следует, что любое предсказание, в котором отсутствует один токен, включает ложный токен или имеет неправильный класс, является серьезной ошибкой и не влияет положительно ни на одну из них. точность или отзыв. Таким образом, эту меру можно назвать пессимистической: может случиться так, что многие «ошибки» близки к исправлению и могут быть адекватными для данной цели. Например, одна система может всегда пропускать такие заголовки, как «Мисс». или «доктор философии», но сравнивать с системой или достоверными данными, которые ожидают включения заголовков. В этом случае каждое такое имя рассматривается как ошибка. Из-за таких проблем важно на самом деле изучить типы ошибок и решить, насколько они важны для целей и требований.

Были предложены модели оценки, основанные на сопоставлении токенов. Таким моделям можно отнести частичное совпадение совпадений (например, с использованием критерия Intersection over Union. Они позволяют более детально оценивать и сравнивать системы извлечения.

Подходы

Были созданы системы NER, в которых используются лингвистические грамматические методы, а также статистические модели, такие как машинное обучение. Системы на основе грамматики, созданные вручную, обычно лучше точность, но за счет меньшего количества запоминаний и месяцев работы опытных компьютерных лингвистов. Статистические системы NER обычно требуют большого количества аннотированных обучающих данных вручную. Полууправляемые были предложены подходы, чтобы избежать части усилий по аннотации.

Для выполнения NER с машинным обучением использовалось много разных типов классификаторов, при этом условные случайные поля были типичным выбором.

Проблемные области

В 2001 году исследование показало, что даже самые современные системы NER le, что означает, что системы NER, разработанные для одного домена, обычно не работают хорошо в других доменах. Значительные усилия требуются для настройки систем NER для хорошей работы в новой области; это верно как для основанных на правилах, так и для обучаемых статистических систем.

Ранняя работа над системами NER в 1990-х была направлена ​​в основном на извлечение из журналистских статей. Затем внимание переключилось на обработку военных донесений и отчетов. Более поздние этапы оценки автоматического извлечения контента (ACE) также включали несколько типов неформальных текстовых стилей, таких как веб-журналы и текстовые расшифровки разговоров по телефону. Примерно с 1998 года существует большой интерес к идентификации сущностей в сообществах молекулярной биологии, биоинформатики и медицинской обработки естественного языка. Наиболее часто представляющими интерес объектами в этой области являются названия генов и генных продуктов. Также был проявлен значительный интерес к распознаванию химических соединений и лекарств в контексте конкурса CHEMDNER, в котором приняли участие 27 команд.

Текущие проблемы и исследования

Несмотря на высокие числа F1, представленные в наборе данных MUC-7, проблема распознавания именованных объектов далека от решения. Основные усилия направлены на сокращение объема работы с аннотациями за счет использования полууправляемого обучения, высокой производительности в разных доменах и масштабирования до мелкозернистых типов сущностей. В последние годы многие проекты обратились к краудсорсингу, который является многообещающим решением для получения высококачественных агрегированных человеческих оценок для контролируемых и частично контролируемых подходов машинного обучения к NER. Другой сложной задачей является разработка моделей для работы с лингвистически сложными контекстами, такими как Twitter и поисковые запросы.

Некоторые исследователи провели некоторые сравнения показателей NER с помощью различных статистических моделей, таких как HMM (скрытый Марков модель ), ME (максимальная энтропия ) и CRF (условные случайные поля ), а также наборы функций. Некоторые исследователи недавно предложили основанную на графах модель полууправляемого обучения для языковых задач NER.

Недавно возникшая задача по идентификации «важных выражений» в тексте и их перекрестной связи с Википедией можно рассматривать как пример чрезвычайно детального распознавания именованных сущностей, где типы являются фактическими страницами Википедии, описывающими (потенциально неоднозначные) концепции. Ниже приведен пример вывода системы викификации:

Майкл Джордан- профессор в Беркли

Еще одна область, в которой наблюдается прогресс, но остается сложной задачей, - это применение NER в Twitter и другие микроблоги.

См. также

Ссылки

Последняя правка сделана 2021-05-31 08:53:29
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте