Извлечение знаний

редактировать

Извлечение знаний - это создание знаний из структурированных (реляционных баз данных, XML ) и неструктурированные (текст, документы, изображения ) источники. Полученные в результате знания должны быть в машиночитаемом и машинно интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически это похоже на извлечение информации (NLP ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированных информации или преобразование в реляционную схему. Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий ), либо генерации схемы на основе исходных данных.

Группа RDB2RDF W3C в настоящее время стандартизирует язык для извлечения структур описания ресурсов (RDF) из реляционных баз данных. Другой популярный пример извлечения знаний - это преобразование Википедии в структурированные данные, а также отображение на существующие знания (см. DBpedia и Freebase ).

Содержание

1 Обзор
2 Примеры
- 2.1 Связывание сущностей
- 2.2 Реляционные базы данных с RDF
3 Извлечение из структурированных источников в RDF
- 3.1 Отображение 1: 1 из таблиц RDB / Представления сущностей / атрибутов / значений RDF
- 3.2 Сложные сопоставления реляционных баз данных с RDF
- 3.3 XML
- 3.4 Обзор методов / инструментов
4 Извлечение из источников на естественном языке
- 4.1 Лингвистическая аннотация / естественная языковая обработка (NLP)
- 4.2 Традиционное извлечение информации (IE)
- 4.3 Извлечение информации на основе онтологий (OBIE)
- 4.4 Изучение онтологий (OL)
- 4.5 Семантическая аннотация (SA)
- 4.6 Инструменты
5 Обнаружение знаний
- 5.1 Входные данные
- 5.2 Форматы вывода
6 См. Также
7 Ссылки

Обзор

После стандартизации языков представления знаний, таких как RDF и OWL, в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешение идентификации, знание открытие dge и изучение онтологий. В общем процессе используются традиционные методы из извлечения информации, и извлечения, преобразования и загрузки (ETL), которые преобразуют данные из источников в структурированные форматы.

Следующие критерии можно использовать для категоризации подходов в этой теме (некоторые из них учитывают только извлечение из реляционных баз данных):

Источник	Какие источники данных охватываются: текст, реляционные Базы данных, XML, CSV
Описание	Как извлеченные знания становятся явными (файл онтологии, семантическая база данных)? Как вы можете запросить это?
Синхронизация	Выполняется ли процесс извлечения знаний один раз для создания дампа или результат синхронизируется с источником? Статический или динамический. Записываются ли изменения в результат обратно (двунаправленные)
Повторное использование словарей	Инструмент может повторно использовать существующие словари при извлечении. Например, столбец таблицы "firstName" можно сопоставить с foaf: firstName. Некоторые автоматические подходы не могут отображать словарь.
Автоматизация	Степень поддержки / автоматизации экстракции. Ручной, графический, полуавтоматический, автоматический.
Требуется онтология предметной области.	Для сопоставления с ней необходима уже существующая онтология. Таким образом, либо создается отображение, либо схема изучается из источника (изучение онтологии ).

Примеры

Связывание сущностей

DBpedia Spotlight, OpenCalais, Dandelion dataTXT, Zemanta API, Extractiv и PoolParty Extractor анализирует свободный текст с помощью распознавания именованных сущностей, а затем устраняет неоднозначность кандидатов с помощью разрешения имен и связывает найденные сущности со знаниями DBpedia репозиторий (демо Dandelion dataTXT или веб-демо DBpedia Spotlight или PoolParty Extractor Demo ).

Президент Обама позвонил в среду на Конгресс, чтобы продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, аргументируя это тем, что политика предусматривает более щедрую помощь.

Поскольку президент Обама связан с ресурсом DBpedia LinkedData, дополнительная информация может быть получена автоматически и Semantic Reasoner может, например, сделать вывод, что упомянутая сущность относится к типу Person (используя FOAF (программное обеспечение) ) и к типу Presidents of the Unite d Состояния (с использованием YAGO ). Примеры счетчиков: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, не обеспечивающие дальнейшего извлечения структурированных данных и формальных знаний.

Реляционные базы данных для RDF

, D2R Server, Ultrawrap, и Virtuoso RDF Views - это инструменты, которые преобразуют реляционные базы данных в RDF. Во время этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе преобразования. При преобразовании типичной реляционной таблицы с именем users один столбец (например, name) или совокупность столбцов (например, first_name и last_name) должны предоставлять URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец может быть извлечен как отношение к этому объекту. Затем свойства с формально определенной семантикой используются (и повторно используются) для интерпретации информации. Например, столбец в пользовательской таблице с именем wifeTo может быть определен как симметричное отношение, а домашняя страница столбца может быть преобразована в свойство из словаря FOAF с именем foaf: homepage, таким образом квалифицируя это как обратное функциональное свойство. Затем каждая запись пользовательской таблицы может быть сделана экземпляром класса foaf: Person (Ontology Population). Дополнительно знания предметной области (в форме онтологии) могут быть созданы из status_id либо с помощью правил, созданных вручную (если status_id равен 2, запись принадлежит классу Teacher), либо с помощью (полу) автоматизированных методов ( обучение онтологии ). Вот пример преобразования:

Имя	женат на	домашнюю страницу	status_id
Peter	Mary	http: // example.org / Peters_page	1
Клаус	Ева	http://example.org/Claus_page	2

: Питер: замужем за: Мэри. : wifeTo a owl: SymmetricProperty. : Питер Фоаф: домашняя страница . : Питер фоаф: человек. : Петр а: Студент. : Клаус a: Учитель.

Извлечение из структурированных источников в RDF

Преобразование 1: 1 из таблиц / представлений RDB в объекты / атрибуты / значения RDF

При построении представления RDB проблемной области отправной точкой часто представляет собой диаграмму "сущность-связь" (ERD). Обычно каждая сущность представлена в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, а отношения между сущностями указываются внешними ключами. Каждая таблица обычно определяет конкретный класс сущности, каждый столбец - один из своих атрибутов. Каждая строка в таблице описывает экземпляр объекта, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:

Каждый столбец в таблице является атрибутом (т. Е. Предикатом)
Каждое значение столбца является значением атрибута (т. Е. Объектом)
Каждый ключ строки представляет идентификатор объекта (т. Е. Тему)
Каждая строка представляет экземпляр объекта
Каждая строка (экземпляр объекта) представлена в RDF набором троек с общей темой (идентификатор объекта).

Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, основной алгоритм сопоставления будет следующим:

создать класс RDFS для каждой таблицы
преобразовать все первичные ключи и внешние ключи в IRI
назначают IRI предиката для каждого столбца
назначают предикат rdf: type для каждой строки, связывая его с IRI класса RDFS, соответствующим таблице
для каждого столбца, который не является частью первичного или внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.

Ранее Упоминание об этом базовом или прямом отображении можно найти в Тим Бернерс-Ли, сравнив модель ER с моделью RDF.

Сложные отображения реляционных баз данных в RDF

Упомянутое выше отображение 1: 1 напрямую представляет устаревшие данные как RDF, дополнительные уточнения могут быть применены для повышения полезности вывода RDF в соответствии с заданными вариантами использования. Обычно информация теряется во время преобразования диаграммы сущности-отношения (ERD) в реляционные таблицы (подробности можно найти в объектно-реляционном несоответствии импеданса ) и должна быть реконструирована. С концептуальной точки зрения подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1: 1. Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы перекрываются с изучением онтологии ). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий (например, столбцы с небольшим количеством значений являются кандидатами на превращение в категории). Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией домена (см. Также: согласование онтологии ). Однако часто подходящая онтология предметной области не существует, и ее необходимо сначала создать.

XML

Поскольку XML имеет древовидную структуру, любые данные могут быть легко представлены в RDF, который имеет структуру графа. XML2RDF - один из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако тема более сложная, как в случае с реляционными базами данных. В реляционной таблице первичный ключ - идеальный кандидат на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT может использоваться как стандартный язык преобразования для ручного преобразования XML в RDF.

Обзор методов / инструментов

Имя	Источник данных	Отображение данных	Синхронизация данных	Язык отображения	Повторное использование словаря	Автомат отображения.	Треб. Онтология домена	использует графический интерфейс
Прямое отображение реляционных данных в RDF	реляционные данные	SPARQL / ETL	динамический	Н / A	false	автоматический	false	false
CSV2RDF4LOD	CSV	ETL	статический	RDF	true	ручной	false	false
CoNLL-RDF	TSV, CoNLL	поток SPARQL / RDF	статический	нет	true	автоматический (зависящий от предметной области, для случаев использования в языковых технологиях, сохраняет отношения между строками)	false	false
Convert2RDF	Текстовый файл с разделителями	ETL	static	RDF / DAML	истинно	вручную	ложь	истина
Сервер D2R	RDB	SPARQL	двунаправленный	D2R Map	true	вручную	false	false
DartGrid	RDB	собственный язык запросов	динамический	Visual Tool	true	ручной	false	true
DataMaster	RDB	ETL	статический	собственный	true	ручной	true	true
Расширение RDF от Google Refine	CSV, XML	ETL	статический	нет		полуавтоматический	false	true
Krextor	XML	ETL	static	xslt	true	manual	истина	ложь
MAPONTO	RDB	ETL	статический	собственный	истина	руководство	истина	ложь
METAmorphoses	RDB	ETL	статический	проприетарный xml язык сопоставления на основе	true	manual	false	true
MappingMaster	CSV	ETL	статический	MappingMaster	true	GUI	false	true
ODEMapster	RDB	ETL	статический	собственный	true	ручной	true	true
OntoWiki CSV Модуль импорта - DataCube Tabular	CSV	ETL	static	Данные RDF Cube Vocaublary	true	полуавтоматический	false	true
Poolparty Extraktor (PPX)	XML, текст	LinkedData	динамический	RDF (SKOS)	true	полуавтоматический	true	false
RDBToOnto	RDB	ETL	static	нет	false	автоматически, пользователь, кроме того, имеет шанс для точной настройки результатов	false	true
RDF 123	CSV	ETL	static	false	ложь	ручная	ложь	правда
RDOTE	RDB	ETL	статическая	SQL	true	вручную	true	true
Relational.OWL	RDB	ETL	статический	нет	false	автоматический	false	false
T2LD	CSV	ETL	статический	false	false	автоматический	false	false
Словарь куба данных RDF	Многомерные статистические данные в электронных таблицах			Куб данных Словарь	true	manual	false
TopBraid Composer	CSV	ETL	static	SKOS	false	полуавтоматический	false	true
Triplify	RDB	LinkedData	dynamic	SQL	true	manual	false	false
Ultrawrap	RDB	SPARQL/ETL	динамический		true	полуавтоматический	false	true
Virtuoso RDF Views	RDB	SPARQL	dynamic	Язык мета-схемы	true	полуавтоматический	false	true
Virtuoso Sponger	структурированные и полуструктурированные источники данных	SPARQL	динамический	Virtuoso PL XSLT	true	полуавтоматический	ложный	ложный
VisAVis	RDB	RDQL	динамический	SQL	true	manual	true	true
XLWrap: электронная таблица в RDF	CSV	ETL	статический	Синтаксис TriG	true	вручную	false	false
XML to RDF	XML	ETL	static	false	false	automatic	false	false

Извлечение из источников на естественном языке

Наибольшая часть информации, содержащейся в деловых документах (о 80%) закодирован на естественном языке и поэтому неструктурирован. Поскольку неструктурированные данные представляют собой сложную задачу для извлечения знаний, требуются более сложные методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако возможность массового приобретения извлеченных знаний должна компенсировать возросшую сложность и снижение качества извлечения. В дальнейшем источники на естественном языке понимаются как источники информации, где данные представлены в неструктурированном виде в виде простого текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.

Лингвистическая аннотация / обработка естественного языка (NLP)

В качестве этапа предварительной обработки для извлечения знаний может потребоваться выполнение лингвистической аннотации одним или несколькими инструментами NLP. Отдельные модули в рабочем процессе НЛП обычно строятся на специфичных для инструмента форматах ввода и вывода, но в контексте извлечения знаний были применены структурированные форматы для представления лингвистических аннотаций.

Типичные задачи НЛП, относящиеся к извлечению знаний, включают:

тегирование части речи (POS)
лемматизацию (LEMMA) или выделение корней (STEM)
смысл слова устранение неоднозначности (WSD, связанный с семантической аннотацией ниже)
распознавание именованных объектов (NER, также см. IE ниже)
синтаксический синтаксический анализ, часто использующий синтаксические зависимости (DEP)
неглубокий синтаксический анализ (CHUNK): если производительность является проблемой, разбиение на фрагменты дает быстрое извлечение номинальных и других фраз
разрешение анафоры (см. разрешение кореферентности в IE ниже, но здесь рассматривается как задача по созданию связей между текстовыми упоминаниями а не между упоминанием объекта и абстрактным представлением объекта)
маркировка семантической роли (SRL, связанная с извлечением отношения; не путать с семантической аннотацией, как описано ниже)
анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)

В НЛП такие данные обычно представляют отправляется в форматах TSV (форматы CSV с TAB в качестве разделителей), часто называемые форматами CoNLL. Для рабочих процессов извлечения знаний RDF-представления таких данных были созданы в соответствии со следующими стандартами сообщества:

Формат обмена NLP (NIF, для многих распространенных типов аннотаций)
Web Annotation (WA, часто используется для связывания объектов)
CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV)

Другие форматы, зависящие от платформы, включают

Формат обмена LAPPS (LIF, используемый в таблице LAPPS)
Формат аннотаций NLP (NAF, используемый в системе управления рабочим процессом NewsReader)

Традиционное извлечение информации (IE)

Традиционное извлечение информации - это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды идентифицируемой информации должны быть указаны в модели до начала процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.

Распознавание именованных объектов (NER)
Разрешение Coreference (CO)
Построение элемента шаблона (TE)
Построение отношения шаблона (TR)
Создание шаблонногосценария (ST)

Задача распознавания именованных сущностей состоит в том, чтобы распознать и классифицировать все именованные сущности, содержащиеся в тексте (присвоение именованной сущности предопределенной категории). Это работает с применением методов, основанных на грамматике или статистических моделей.

Разрешение Coreference идентифицирует эквивалентные сущности, которые были распознаны NER, в тексте. Есть два важных типа отношений эквивалентности. Первый относится к отношениям между двумя представленными объектами (например, IBM Europe и IBM), а второй - к отношениям между объектами их анафорическими ссылками (например, он и IBM). Оба вида можно распознать по разрешающей способности кореференции.

Во время создания элемента системы IE идентифицирует описательные свойства сущностей, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам таким как красный или большой.

Построение отношений шаблона определяет отношения, которые существуют между элементами. Эти могут быть отношения нескольких видов, например, для работы или нахождения, с ограничением, что и домен, и диапазон соответствуют объектам.

В шаблоне сценария производственные события, которые обеспечивают в тексте, идентифицированы и структурированы сущностей, распознаваемых NER и CO, и отношений идентифицированных TR.

Извлечение информации на основе онтологий (OBIE)

Извлечение информации на основе онтологий - это подполе извлечения информации, в котором используется процесс управления как минимум одна онтология извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концептов, экземпляров и отношений используемых онтологий в тексте, которые после процесса структурированы в онтологию. Таким образом, входные онтологии составляют модель извлекаемой информации.

Изучение онтологий (OL)

Изучение онтологий - это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов создания области из текста на естественном языке. Время работы онтологий вручную трудоемко и требует много времени, есть большая мотивация для автоматизированного процесса.

Семантическая аннотация (SA)

Во время семантической аннотации текст на естественном языке дополняется метаданными (часто представленными в RDFa ), которые должны формировать семантикуся в нем терминов. -понятно. В этом процессе, который обычно является полуавтоматическим, извлекаются знания в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом, получается знание, какое значение термина в обрабатываемом контексте было предназначено, и, следовательно, значение текста основывается на машиночитаемых данных с помощью делать выводы. Семантическая две аннотация обычно разделяется на следующие подзадачи.

На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и решает сокращения. Затем термины из текста, используемые концепции, извлекаются с помощью предметно-ориентированного словаря, чтобы связать их призывания сущностей.

В сущности устанавливается связь между извлеченными лексическими терминами исходного текста и концепциями из онтологии или базы знаний, такой как DBpedia. Для этого с помощью лексики выявляются подходящие концепты к нескольким значениям термина. Наконец, терминов анализируется, чтобы определить наиболее подходящее устранение неоднозначности и присвоить термин правильному понятию.

Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантическим синтаксическим анализом, как понимается при обработке естественного языка (называемой «семантической аннотацией»): Семантический синтаксический анализ нацелен на полное, машиночитаемое представление естественного языка, тогда как семантическая аннотация в смысле извлечения знаний очень элементарный аспект этого.

Инструменты

Следующие правила можно использовать для категоризации инструментов, извлекающих знания из текста на естественном языке.

Источник	Какие входные форматы могут обрабатываться инструментом (например, обычный текст, HTML или PDF)?
Парадигма доступа	Может ли инструмент запрашивать источник данных или для процесса извлечения требуется полный дамп?
Синхронизация данных	Синхронизирован ли результат процесса извлечения с источника?
Использует онтологию вывода	Связывает ли инструмент результат с онтологией?
Автоматизация картографии	Насколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)?
Требуется онтология	Нужна ли инструменту онтология для извлечения?
Использует графический интерфейс	Предлагает ли инструмент графический интерфейс пользователя?
Подход	Какой подход (IE, OBIE, OL или SA) используется инструментом?
Извлеченные сущности	Какие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены инструментом?
Прикладные методы	Какие методы применяются (например, НЛП, статистические методы, кластеризация или машинное обучение )?
Модель вывода	Какая модель используется для представления результата работы инструмента (например, RDF или OWL)?
Поддерживаемые домены	Какие домены поддерживаются (например, экономика или биология)?
Поддерживаемые языки	Какие языки можно обрабатывать (например, английский или немецкий)?

В следующей таблице некоторые инструменты для извлечения знаний из источников на естественном языке.

Имя	Источник	Парадигма доступа	Синхронизация данных	Использует онтологию вывода	Автоматизация отображения	Требуется онтология	Использует GUI	Подход	Извлеченные сущности	Прикладные методы	Модель вывода	Поддерживаемые домены	Поддерживаемые языки
[1]	обычный текст, HTML, XML, SGML	дамп	no	да	автоматически	да	да	IE	именованные сущности, отношения, события	лингвистические правила	проприетарные	независимые от домена	английский, испанский, арабский, Китайский, индонезийский
AlchemyAPI	обычный текст, HTML				автоматически		да	SA					многоязычный
ANNIE	простой текст	дамп				да	да	IE		алгоритмы конечного состояния			многоязычный
ASIUM	простой текст	дамп			полуавтоматический		да	OL	, структура концепций	NLP, кластеризация
Attensity Exhaustive Extraction					автоматическая			IE	именованные сущности, отношения, события	NLP
Dandelion API	простой текст, HTML, URL	REST	no	no	автоматически	no	да	SA	именованные сущности, концепции	статистические методы	JSON	независимый от домена	многоязычный
DBpedia Spotlight	обычный текст, HTML	дамп, SPARQL	да	да	автоматическая	no	да	SA	аннотация к каждому слову, аннотация к непрерывным словам	НЛП, статистические методы, машинное обучение	RDFa	независимый от домена	русский
EntityClassifier.eu	обычный текст, HTML	дамп	да	да	автоматический	no	да	IE, OL, SA	аннотация к каждому слову, аннотация к непрерывным словам	грамматика на основе правил	XML	независимый от домена	английский, немецкий, голла ндский
FRED	простой текст	дамп, REST API	да	да	автоматический	no	да	IE, OL, SA, шаблоны проектирования онтологий, семантика кадра	(много-) словная аннотация NIF или EarMark, предикаты, экземпляры, композиции итоговая семантика, таксономии понятий, фреймы, семантические роли, перифрастические отношения, события, модальность, время, связь сущностей, связь событий, тональность	НЛП, машинное обучение, эвристические правила	RDF / OWL	домен-независимый	английский, другие языки через перевод
iDocument	HTML, PDF, DOC	SPARQL		да			да	OBIE	экземпляры, значения свойства	NLP		личный, деловой
NetOwl Extractor	простой текст, HTML, XML, SGML, PDF, MS Office	дамп	No	Да	Автоматически	да	Да	IE	именованные сущности, отношения, события	NLP	XML, JSON, RDF-OWL и другие	неск олько доменов	Английский, арабский, китайский (упрощенный и традиционный), французский, корейский, персидский (фарси и дари), русский, испанский
OntoGen					полуавтоматический		да	OL	концепция, иерархия понятий, не таксономические отношения, экземпляры	НЛП, машинное обучение, кластеризация
OntoLearn	простой текст, HTML	дамп	no	да	автоматически	да	no	OL	концепции, иерархия понятий, экземпляры	NLP, статистические методы	собственные	независимый от домена	английский
OntoLearn Reloaded	обычный текст, HTML	дамп	no	да	автоматический	да	no	OL	концепции, иерархия понятий, экземпляры	НЛП, статистические методы	проприетарные	Независимые от предметной области	английский
OntoSyphon	HTML, PDF, DOC	дамп, поисковые запросы	no	да	автоматически	да	no	OBIE	, концепции, экземпляры	НЛП, статистические методы	RDF	домен-независимый	английский
onX	простой текст	дамп	no	да	полуавтоматический	да	no	экземпляры OBIE	, значения Свойства типа данных	методы на основе эвристики	проприетарные	независимый от домена	независимый от языка
OpenCalais	простой текст, HTML, XML	дамп	no	да	автоматически	да	no	SA	аннотации к сущностям, аннотации к событиям, аннотации к фактам	НЛП, машинное обучение	RDF	доменно-независимый	английский, французский, испанский
PoolParty Extractor	простой текст, HTML, DOC, ODT	дамп	no	да	автоматически	да	да	OBIE	именованные сущности, концепции, отношения, которые классифицируют текст, обогащения	НЛП, машинное обучение, статистические методы	RDF, OWL	независимый от домена	английский, немецкий, испанский, французский
Rosoka	простой текст, HTML, XML, SGML, PDF, MS Office	дамп	Да	Да	Автоматически	no	Да	IE	извлечение именованных сущностей, разрешение сущностей, извлечение взаимосвязей, атрибуты, концепции, многовекторность анализ тональности, геотеги, идентификация языка	NLP, машинное обучение	XML, JSON, POJO, RDF	несколько доменов	200+ многоязычных языков
SCOOBIE	обычный текст, HTML	дамп	no	ye s	автоматические	no	no	экземпляры OBIE	, значения свойств, типы RDFS	NLP, машинное обучение	RDF, RDFa	независимый от домена	английский, немецкий
SemTag	HTML	дамп	no	да	независимое автоматическое	да	no	SA		машинное обучение	запись базы данных	ая от домена	ая от языка
smart FIX	обычный текст, HTML, PDF, DOC, электронная почта	дамп	да	no	автоматический	no	да	OBIE	именованные сущности	НЛП, машинное обучение	проприетарный	независимый от домена	английский, немецкий, французский, голландский, польский
Text2Onto	обычный текст, HTML, PDF	дамп	да	no	полуавтоматический	да	да	OL	концепции, иерархия понятий, нетаксономические отношения, экземпляры, аксиомы	НЛП, статистические методы, машинное обучение, методы на основе правил	OWL	deomain-independent	Английский, немецкий, испанский
Text-To-Onto	простой текст, HTML, PDF, PostScript	дамп			полуавтоматический	да	да	OL	понятия, иерархия понятий, нетаксономические отношения, лексические объекты, относящиеся к концептам, лексические объекты, относящиеся к отношениям	НЛП, машинное обучение, кластеризация, статистические методы			Немецкий
ThatNeedle	Обычный текст	дамп			автоматический		нет		концепции, отношения, иерархия	НЛП, проприетарный	JSON	несколько доменов	английский
The Wiki Machine	простой текст, HTML, PDF, DOC	дамп	no	да	автоматический	да	да	SA	аннотация к существующему собственному, аннотация к существительным нарицательным	машинное обучение	RDFa	домен- независимый	английский, немецкий, испанский, французский, португальский, итальянский, русский
ThingFinder								IE	именованные сущности, отношения, события				многоязычный

открытие знаний

открытие знаний описывает процесс автоматического поиска в больших объемах данных шаблонов, которые могут считаться знаниями о данных. Это часто описывается как получение знаний из входных данных. Поиск знаний развился из области интеллектуального анализа данных и тесно связан с ней как с точки зрения методологии, так и с точки зрения терминологии.

Наиболее известная ветвь интеллектуального анализа данных - это обнаружение знаний, также известное как обнаружение знаний в базах данных (KDD). Как и многие другие формы открытия знаний, он создает абстракции входных данных. Знания, полученные в процессе, могут стать дополнительными данными, которые можно использовать для дальнейшего использования и обнаружения. Часто результаты обнаружения знаний не требуют действий, обнаружение знаний с практическими действиями, также известное как анализ данных на основе предметной области, нацелено на обнаружение и предоставление практических знаний и идей.

Еще одно многообещающее применение обнаружения знаний - это область модернизации программного обеспечения, обнаружения слабых мест и соответствия требованиям, что предполагает понимание существующих программных артефактов. Этот процесс связан с концепцией обратного проектирования. Обычно знания, полученные с помощью существующего программного обеспечения, представлены в виде моделей, к которым при необходимости могут быть сделаны конкретные запросы. Отношение сущностей - это частый формат представления знаний, полученных из существующего программного обеспечения. Группа управления объектами (OMG) разработала спецификацию Метамодель обнаружения знаний (KDM), которая определяет онтологию для программных активов и их взаимосвязей с целью выполнения обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известное как интеллектуальный анализ программного обеспечения, тесно связано с интеллектуальным анализом данных, поскольку существующие программные артефакты имеют огромное значение для управления рисками и бизнес-ценности, ключ для оценки и развития программных систем. Вместо анализа отдельных наборов данных, программный анализ фокусируется на метаданных, таких как потоки процессов (например, потоки данных, потоки управления и карты вызовов), архитектура, схемы базы данных и бизнес-правила / условия / процесс.

Входные данные

Форматы вывода

См. Также

Ссылки