Автоматическое извлечение структурированной информации из неструктурированных или полуструктурированных машиночитаемых документов, таких как тексты на человеческом языке
Извлечение информации (IE) - задача автоматического извлечения структурированной информации из неструктурированных и / или полуструктурированных машиночитаемых документов и других источников, представленных в электронном виде. В большинстве случаев эта деятельность касается обработки текстов на человеческом языке посредством обработки естественного языка (НЛП). Недавние действия по обработке мультимедийных документов, такие как автоматическое добавление аннотаций и извлечение контента из изображений / аудио / видео / документов, можно рассматривать как извлечение информации
Из-за сложности проблемы текущие подходы к IE фокусируется на узко ограниченных доменах. Примером может служить извлечение из новостной ленты отчетов о корпоративных слияниях, например, обозначенных формальным соотношением:
- ,
из предложения онлайн-новостей, например:
- «Вчера компания Foo Inc., базирующаяся в Нью-Йорке, объявила о приобретении Bar Corp.»
Основная цель IE - позволить вычисления должны выполняться на ранее неструктурированных данных. Более конкретная цель - дать возможность логическому рассуждению делать выводы на основе логического содержания входных данных. Структурированные данные - это семантически четко определенные данные из выбранного целевого домена, интерпретированные с учетом категории и контекста.
Извлечение информации является частью большой головоломки, которая касается проблемы разработки автоматических методов управления текстом, помимо его передача, хранение и отображение. Дисциплина информационного поиска (IR) разработала автоматические методы, обычно статистического характера, для индексации больших коллекций документов и классификации документов. Другим дополнительным подходом является подход обработки естественного языка (NLP), который со значительным успехом решил проблему моделирования обработки человеческого языка, принимая во внимание масштабность задачи. С точки зрения сложности и акцента IE решает задачи между IR и NLP. Что касается ввода, IE предполагает существование набора документов, в котором каждый документ следует шаблону, т.е. описывает одну или несколько сущностей или событий способом, аналогичным таковым в других документах, но отличающимся деталями. В качестве примера рассмотрим группу новостных статей о терроризме в Латинской Америке, каждая из которых предположительно основана на одном или нескольких террористических актах. Мы также определяем для любой данной задачи IE шаблон, который представляет собой (или набор) фреймов (ов) для хранения информации, содержащейся в одном документе. В примере с терроризмом в шаблоне должны быть слоты, соответствующие исполнителю, жертве и оружию террористического акта, а также дате, когда произошло событие. Система IE для решения этой проблемы требуется, чтобы «понять» статью об атаке настолько, чтобы найти данные, соответствующие слотам в этом шаблоне.
Содержание
- 1 История
- 2 Текущая значимость
- 3 Задачи и подзадачи
- 4 Приложения World Wide Web
- 5 Подходы
- 6 Бесплатное или открытое программное обеспечение и услуги
- 7 См. Также
- 8 Ссылки
- 9 Внешние ссылки
История
Извлечение информации восходит к концу 1970-х годов, на заре НЛП. Ранней коммерческой системой середины 1980-х годов была JASPER, созданная для Reuters компанией Carnegie Group Incс целью предоставления финансовых новостей в режиме реального времени для финансовых трейдеров.
Начиная с 1987 года, IE был стимулирован серией конференций по пониманию сообщений. MUC - это конференция, основанная на соревнованиях, которая фокусировалась на следующих областях:
- MUC-1 (1987), MUC-2 (1989): сообщения о морских операциях.
- MUC-3 (1991), MUC- 4 (1992): Терроризм в странах Латинской Америки.
- MUC-5 (1993): Совместные предприятия и область микроэлектроники.
- MUC-6 (1995): Новости статьи об изменениях в управлении.
- MUC-7 (1998): отчеты о запуске спутников.
Значительную поддержку оказало Агентство перспективных исследовательских проектов Министерства обороны США (DARPA ), желавшее автоматизировать рутинные задачи, выполняемые правительственными аналитиками, такие как сканирование газет на предмет возможных связей с терроризмом.
Современное значение
Настоящее значение IE связано с растущим объемом информации, доступной в неструктурированной форме. Тим Бернерс-Ли, изобретатель всемирной паутины, называет существующий Интернет сетью документов и выступает за то, чтобы большее количество контента было доступно как сеть данных. Пока это не выяснится, Интернет в основном состоит из неструктурированных документов без семантических метаданных. Знания, содержащиеся в этих документах, можно сделать более доступными для машинной обработки посредством преобразования в реляционную форму или путем разметки тегами XML. Интеллектуальный агент, отслеживающий поток данных новостей, требует, чтобы IE преобразовывал неструктурированные данные во что-то, с чем можно было бы договориться. Типичное применение IE - сканирование набора документов, написанных на естественном языке, и заполнение базы данных извлеченной информацией.
Задачи и подзадачи
Применение извлечения информации к тексту связана с проблемой упрощения текста для создания структурированного представления информации, представленной в свободном тексте. Общая цель - создать более легко читаемый машинами текст для обработки предложений. Типичные задачи и подзадачи IE включают:
- Заполнение шаблона: извлечение фиксированного набора полей из документа, например извлекать преступников, жертв, время и т. д. из газетной статьи о террористическом нападении.
- Извлечение событий: для входящего документа выведите ноль или более шаблонов событий. Например, газетная статья может описывать несколько террористических атак.
- База знаний Население: Заполните базу данных фактами с помощью набора документов. Обычно база данных имеет форму триплетов (объект 1, отношение, объект 2), например (Барак Обама, супруг, Мишель Обама )
- Распознавание именованных объектов : распознавание известных названий объектов (для людей и организаций), географических названий, временных выражений и определенных типов числовых выражений, используя существующие знания о предметной области или информацию, извлеченную из других предложений. Обычно задача распознавания включает в себя присвоение уникального идентификатора извлеченной сущности. Более простая задача называется обнаружением сущностей, которая направлена на обнаружение сущностей без наличия каких-либо существующих знаний о экземпляры сущностей. Например, при обработке предложения «М. Смит любит рыбалку» обнаружение именованных сущностей будет означать обнаружение того, что фраза «М. Смит» действительно относится к человеку, но не обязательно имеет (или использование) любых знаний об определенном М. Смите, который является (или «может быть») тем человеком, о котором говорится в этом предложении.
- Coreference разрешение: обнаружение coreference и анафорические ссылки между текстовыми объектами. I В задачах IE это обычно ограничивается поиском связей между ранее извлеченными именованными объектами. Например, «International Business Machines» и «IBM» относятся к одному и тому же реальному объекту. Если мы возьмем два предложения «М. Смит любит рыбалку. Но он не любит ездить на велосипеде», было бы полезно обнаружить, что «он» имеет в виду ранее обнаруженного человека «М. Смит».
- Извлечение родства : идентификация отношений между сущностями, например:
- ЛИЦО работает на ОРГАНИЗАЦИЮ (извлечено из предложения «Билл работает на IBM»).
- ЛИЦО, находящееся в МЕСТО (извлечено из предложение «Билл находится во Франции».)
- Извлечение полуструктурированной информации, которое может относиться к любому IE, который пытается восстановить какую-либо структуру информации, которая была потеряна в результате публикации, например:
- Извлечение таблицы : поиск и извлечение таблиц из документов.
- Извлечение табличной информации: извлечение информации из таблиц в структурированном виде. Это более сложная задача, чем извлечение таблицы, так как извлечение таблицы - это только первый шаг, а понимание ролей ячеек, строк, столбцов, связывание информации внутри таблицы и понимание информации, представленной в таблице, являются дополнительными задачами, необходимыми для таблицы извлечение информации.
- Извлечение комментариев: извлечение комментариев из фактического содержания статьи для восстановления связи между автором каждого предложения
- Анализ языка и словарного запаса
- Извлечение терминологии : поиск соответствующих терминов для данного корпус
- Извлечение аудио
- Извлечение музыки на основе шаблона: поиск соответствующей характеристики в аудиосигнале, взятом из заданного репертуара; например, временные индексы появления ударных звуков могут быть извлечены для представления существенного ритмического компонента музыкального произведения.
Обратите внимание, что этот список не является исчерпывающим и что точное значение действий IE не является общепринятым, и что многие подходы объединяют несколько подзадач IE для достижения более широкой цели. В IE часто используются машинное обучение, статистический анализ и / или обработка естественного языка.
IE для нетекстовых документов становится все более интересной темой в исследованиях, и информация, извлеченная из мультимедийных документов, теперь может быть выражена в структуре высокого уровня, как это делается для текста. Это, естественно, приводит к слиянию информации, извлеченной из различных документов и источников.
Приложения World Wide Web
IE был в центре внимания конференций MUC. Однако распространение Web усилило потребность в разработке систем IE, которые помогают людям справляться с огромным объемом данных, доступных в Интернете. Системы, которые выполняют IE из онлайн-текста, должны отвечать требованиям низкой стоимости, гибкости в разработке и легкой адаптации к новым доменам. Системы MUC не соответствуют этим критериям. Более того, лингвистический анализ, выполняемый для неструктурированного текста, не использует теги HTML / XML и форматы разметки, доступные в онлайн-текстах. В результате для IE в Интернете были разработаны менее лингвистические подходы с использованием оболочек, которые представляют собой наборы высокоточных правил, извлекающих содержимое конкретной страницы. Ручная разработка оболочек оказалась трудоемкой задачей, требующей высокого уровня знаний. Методы машинного обучения, либо контролируемые, либо неконтролируемые, использовались для автоматического введения таких правил.
Оболочки обычно обрабатывают сильно структурированные коллекции веб-страниц, такие как каталоги продуктов и телефонные справочники. Однако они терпят неудачу, когда тип текста менее структурирован, что также часто встречается в Интернете. Недавние усилия по адаптивному извлечению информации мотивируют разработку систем IE, которые могут обрабатывать различные типы текста, от хорошо структурированного до почти свободного текста, где обычные оболочки не работают, включая смешанные типы. Такие системы могут использовать поверхностное знание естественного языка и, таким образом, также могут применяться к менее структурированным текстам.
Недавней разработкой является визуальное извлечение информации, которое основывается на отображении веб-страницы в браузере и создании правил на основе близости регионов на отображаемой веб-странице. Это помогает извлекать объекты из сложных веб-страниц, которые могут демонстрировать визуальный узор, но не иметь заметного шаблона в исходном коде HTML.
Подходы
В настоящее время широко распространены следующие стандартные подходы:
- Рукописные регулярные выражения (или вложенная группа регулярных выражений)
- Использование классификаторов
- Модели последовательностей
- Рекуррентная нейронная сеть
- Скрытая марковская модель
- Условная марковская модель (CMM) / Марковская модель с максимальной энтропией (MEMM)
- Условные случайные поля (CRF) обычно используются в сочетании с IE для различных задач, таких как извлечение информации из исследовательские работы по извлечению навигационных инструкций.
Для IE существует множество других подходов, включая гибридные подходы, сочетающие некоторые из стандартных подходов, перечисленных ранее.
Бесплатное программное обеспечение и услуги с открытым исходным кодом
- Общая архитектура для текстовой инженерии (GATE) поставляется в комплекте с бесплатной системой извлечения информации
- Apache OpenNLP набор инструментов машинного обучения Java для обработки естественного языка
- OpenCalais - это веб-сервис автоматического извлечения информации из Thomson Reuters (бесплатная ограниченная версия)
- Machine Learning for Language Toolkit (Mallet) - это пакет на основе Java для множества задач обработки естественного языка, включая извлечение информации.
- DBpedia Spotlight - это инструмент с открытым исходным кодом на Java / Scala (и бесплатный веб-сервис), который можно использовать для именованных объектов распознавание и разрешение имен.
- Natural Language Toolkit - это набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языка программирования Python
- См. также CRF реализации
См. также
- Списки
Ссылки
- ^FREITAG, DAYNE. «Машинное обучение для извлечения информации в неформальных областях» (PDF). 2000 Kluwer Academic Publishers. Напечатано в Нидерландах.
- ^Andersen, Peggy M.; Hayes, Филип Дж.; Huettner, Alison K.; Schmandt, Linda M.; Ниренбург, Ирэн Б.; Вайнштейн, Стивен П. (1992). «Автоматическое извлечение фактов из пресс-релизов для создания новостей». Труды третьей конференции по прикладной обработке естественного языка -. С. 170–177. CiteSeerX 10.1.1.14.7943. doi : 10.3115 / 974499.974531. S2CID 14746386.
- ^Коуи, Джим; Уилкс, Йорик (1996). Извлечение информации (PDF). п. 3. CiteSeerX 10.1.1.61.6480. S2CID 10237124.
- ^Марко Костантино, Паоло Колетти, «Извлечение информации в финансах», Wit Press, 2008. ISBN 978-1-84564-146 -7
- ^«Связанные данные - история на данный момент» (PDF).
- ^«Тим Бернерс-Ли в следующей сети».
- ^Р. К. Шрихари, В. Ли, К. Ню и Т. Корнелл, «InfoXtract: настраиваемый механизм извлечения информации промежуточного уровня», Журнал инженерии естественного языка, Cambridge U. Press, 14 ( 1), 2008, стр. 33-69.
- ^ Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных отношений с использованием глубокого биаффинного внимания». Материалы 41-й Европейской конференции по поиску информации (ECIR). arXiv : 1812.11275. doi : 10.1007 / 978-3-030-15712-8_47.
- ^Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (февраль 2019 г.). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов (IJDAR). 22 (1): 55–78. arXiv : 1902.10031. Bibcode : 2019arXiv190210031M. DOI : 10.1007 / s10032-019-00317-0. S2CID 62880746.
- ^Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц в биомедицинских документах (PDF) (PhD). Манчестерский университет.
- ^Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (февраль 2019 г.). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов (IJDAR). 22 (1): 55–78. arXiv : 1902.10031. Bibcode : 2019arXiv190210031M. DOI : 10.1007 / s10032-019-00317-0. S2CID 62880746.
- ^Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (июнь 2016 г.). «Распутывание структуры таблиц в научной литературе». 21-я Международная конференция по применению естественного языка в информационных системах. Конспект лекций по информатике. 21 : 162–174. DOI : 10.1007 / 978-3-319-41754-7_14. ISBN 978-3-319-41753-0.
- ^Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц в биомедицинских документах (PDF) (PhD). Манчестерский университет.
- ^A.Zils, F.Pachet, O.Delerue и F. Gouyon, Автоматическое извлечение барабанных дорожек из полифонических музыкальных сигналов, Proceedings of WedelMusic, Дармштадт, Германия, 2002.
- ^Чентамаракшан, Виджил; Desphande, Prasad M; Кришнапурам, Рагху; Варадараджан, Рамакришнан; Штольце, Кнут (2015). «WYSIWYE: алгебра для выражения пространственных и текстовых правил для извлечения информации». arXiv : 1506.08454 [cs.CL ].
- ^Баумгартнер, Роберт; Флеска, Серджио; Готтлоб, Георг (2001). «Извлечение визуальной информации из Интернета с помощью Lixto»: 119–128. CiteSeerX 10.1.1.21.8236. Для цитирования журнала требуется
| journal =
() - ^Peng, F.; McCallum, A. (2006). «Извлечение информации из исследовательских работ с использованием условных случайных полей ☆». Обработка информации и управление. 42 (4): 963. doi : 10.1016 / j.ipm.2005.09.002.
- ^Симидзу, Нобуюки; Хасс, Эндрю (2006). «Извлечение представления знаний на основе фреймов из инструкций по маршруту» (PDF). Заархивировано из оригинала (PDF) от 01.09.2006 г. Проверено 27 марта 2010 г.
Внешние ссылки
- Страница "конкурса" Alias-I Список академических и промышленных инструментов для извлечения информации на естественном языке.
- Страница Габора Мелли в IE Подробное описание задачи извлечения информации.