Извлечение знаний

редактировать

Извлечение знаний - это создание знаний из структурированных (реляционных баз данных, XML ) и неструктурированные (текст, документы, изображения ) источники. Полученные в результате знания должны быть в машиночитаемом и машинно интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически это похоже на извлечение информации (NLP ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированных информации или преобразование в реляционную схему. Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий ), либо генерации схемы на основе исходных данных.

Группа RDB2RDF W3C в настоящее время стандартизирует язык для извлечения структур описания ресурсов (RDF) из реляционных баз данных. Другой популярный пример извлечения знаний - это преобразование Википедии в структурированные данные, а также отображение на существующие знания (см. DBpedia и Freebase ).

Содержание
  • 1 Обзор
  • 2 Примеры
    • 2.1 Связывание сущностей
    • 2.2 Реляционные базы данных с RDF
  • 3 Извлечение из структурированных источников в RDF
    • 3.1 Отображение 1: 1 из таблиц RDB / Представления сущностей / атрибутов / значений RDF
    • 3.2 Сложные сопоставления реляционных баз данных с RDF
    • 3.3 XML
    • 3.4 Обзор методов / инструментов
  • 4 Извлечение из источников на естественном языке
    • 4.1 Лингвистическая аннотация / естественная языковая обработка (NLP)
    • 4.2 Традиционное извлечение информации (IE)
    • 4.3 Извлечение информации на основе онтологий (OBIE)
    • 4.4 Изучение онтологий (OL)
    • 4.5 Семантическая аннотация (SA)
    • 4.6 Инструменты
  • 5 Обнаружение знаний
    • 5.1 Входные данные
    • 5.2 Форматы вывода
  • 6 См. Также
  • 7 Ссылки
Обзор

После стандартизации языков представления знаний, таких как RDF и OWL, в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешение идентификации, знание открытие dge и изучение онтологий. В общем процессе используются традиционные методы из извлечения информации, и извлечения, преобразования и загрузки (ETL), которые преобразуют данные из источников в структурированные форматы.

Следующие критерии можно использовать для категоризации подходов в этой теме (некоторые из них учитывают только извлечение из реляционных баз данных):

ИсточникКакие источники данных охватываются: текст, реляционные Базы данных, XML, CSV
ОписаниеКак извлеченные знания становятся явными (файл онтологии, семантическая база данных)? Как вы можете запросить это?
СинхронизацияВыполняется ли процесс извлечения знаний один раз для создания дампа или результат синхронизируется с источником? Статический или динамический. Записываются ли изменения в результат обратно (двунаправленные)
Повторное использование словарейИнструмент может повторно использовать существующие словари при извлечении. Например, столбец таблицы "firstName" можно сопоставить с foaf: firstName. Некоторые автоматические подходы не могут отображать словарь.
АвтоматизацияСтепень поддержки / автоматизации экстракции. Ручной, графический, полуавтоматический, автоматический.
Требуется онтология предметной области.Для сопоставления с ней необходима уже существующая онтология. Таким образом, либо создается отображение, либо схема изучается из источника (изучение онтологии ).
Примеры

Связывание сущностей

  1. DBpedia Spotlight, OpenCalais, Dandelion dataTXT, Zemanta API, Extractiv и PoolParty Extractor анализирует свободный текст с помощью распознавания именованных сущностей, а затем устраняет неоднозначность кандидатов с помощью разрешения имен и связывает найденные сущности со знаниями DBpedia репозиторий (демо Dandelion dataTXT или веб-демо DBpedia Spotlight или PoolParty Extractor Demo ).

Президент Обама позвонил в среду на Конгресс, чтобы продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, аргументируя это тем, что политика предусматривает более щедрую помощь.

Поскольку президент Обама связан с ресурсом DBpedia LinkedData, дополнительная информация может быть получена автоматически и Semantic Reasoner может, например, сделать вывод, что упомянутая сущность относится к типу Person (используя FOAF (программное обеспечение) ) и к типу Presidents of the Unite d Состояния (с использованием YAGO ). Примеры счетчиков: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, не обеспечивающие дальнейшего извлечения структурированных данных и формальных знаний.

Реляционные базы данных для RDF

  1. , D2R Server, Ultrawrap, и Virtuoso RDF Views - это инструменты, которые преобразуют реляционные базы данных в RDF. Во время этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе преобразования. При преобразовании типичной реляционной таблицы с именем users один столбец (например, name) или совокупность столбцов (например, first_name и last_name) должны предоставлять URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец может быть извлечен как отношение к этому объекту. Затем свойства с формально определенной семантикой используются (и повторно используются) для интерпретации информации. Например, столбец в пользовательской таблице с именем wifeTo может быть определен как симметричное отношение, а домашняя страница столбца может быть преобразована в свойство из словаря FOAF с именем foaf: homepage, таким образом квалифицируя это как обратное функциональное свойство. Затем каждая запись пользовательской таблицы может быть сделана экземпляром класса foaf: Person (Ontology Population). Дополнительно знания предметной области (в форме онтологии) могут быть созданы из status_id либо с помощью правил, созданных вручную (если status_id равен 2, запись принадлежит классу Teacher), либо с помощью (полу) автоматизированных методов ( обучение онтологии ). Вот пример преобразования:
Имяженат надомашнюю страницуstatus_id
PeterMaryhttp: // example.org / Peters_page 1
КлаусЕваhttp://example.org/Claus_page 2
: Питер: замужем за: Мэри. : wifeTo a owl: SymmetricProperty. : Питер Фоаф: домашняя страница . : Питер фоаф: человек. : Петр а: Студент. : Клаус a: Учитель.
Извлечение из структурированных источников в RDF

Преобразование 1: 1 из таблиц / представлений RDB в объекты / атрибуты / значения RDF

При построении представления RDB проблемной области отправной точкой часто представляет собой диаграмму "сущность-связь" (ERD). Обычно каждая сущность представлена ​​в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, а отношения между сущностями указываются внешними ключами. Каждая таблица обычно определяет конкретный класс сущности, каждый столбец - один из своих атрибутов. Каждая строка в таблице описывает экземпляр объекта, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:

  • Каждый столбец в таблице является атрибутом (т. Е. Предикатом)
  • Каждое значение столбца является значением атрибута (т. Е. Объектом)
  • Каждый ключ строки представляет идентификатор объекта (т. Е. Тему)
  • Каждая строка представляет экземпляр объекта
  • Каждая строка (экземпляр объекта) представлена ​​в RDF набором троек с общей темой (идентификатор объекта).

Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, основной алгоритм сопоставления будет следующим:

  1. создать класс RDFS для каждой таблицы
  2. преобразовать все первичные ключи и внешние ключи в IRI
  3. назначают IRI предиката для каждого столбца
  4. назначают предикат rdf: type для каждой строки, связывая его с IRI класса RDFS, соответствующим таблице
  5. для каждого столбца, который не является частью первичного или внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.

Ранее Упоминание об этом базовом или прямом отображении можно найти в Тим Бернерс-Ли, сравнив модель ER с моделью RDF.

Сложные отображения реляционных баз данных в RDF

Упомянутое выше отображение 1: 1 напрямую представляет устаревшие данные как RDF, дополнительные уточнения могут быть применены для повышения полезности вывода RDF в соответствии с заданными вариантами использования. Обычно информация теряется во время преобразования диаграммы сущности-отношения (ERD) в реляционные таблицы (подробности можно найти в объектно-реляционном несоответствии импеданса ) и должна быть реконструирована. С концептуальной точки зрения подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1: 1. Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы перекрываются с изучением онтологии ). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий (например, столбцы с небольшим количеством значений являются кандидатами на превращение в категории). Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией домена (см. Также: согласование онтологии ). Однако часто подходящая онтология предметной области не существует, и ее необходимо сначала создать.

XML

Поскольку XML имеет древовидную структуру, любые данные могут быть легко представлены в RDF, который имеет структуру графа. XML2RDF - один из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако тема более сложная, как в случае с реляционными базами данных. В реляционной таблице первичный ключ - идеальный кандидат на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT может использоваться как стандартный язык преобразования для ручного преобразования XML в RDF.

Обзор методов / инструментов

ИмяИсточник данныхОтображение данныхСинхронизация данныхЯзык отображенияПовторное использование словаряАвтомат отображения.Треб. Онтология доменаиспользует графический интерфейс
Прямое отображение реляционных данных в RDF реляционные данныеSPARQL / ETLдинамическийН / Afalseавтоматическийfalsefalse
CSV2RDF4LOD CSVETLстатическийRDFtrueручнойfalsefalse
CoNLL-RDF TSV, CoNLLпоток SPARQL / RDFстатическийнетtrueавтоматический (зависящий от предметной области, для случаев использования в языковых технологиях, сохраняет отношения между строками)falsefalse
Convert2RDF Текстовый файл с разделителямиETLstaticRDF / DAMLистинновручнуюложьистина
Сервер D2R RDBSPARQLдвунаправленныйD2R Maptrueвручнуюfalsefalse
DartGrid RDBсобственный язык запросовдинамическийVisual Tooltrueручнойfalsetrue
DataMaster RDBETLстатическийсобственныйtrueручнойtruetrue
Расширение RDF от Google Refine CSV, XMLETLстатическийнетполуавтоматическийfalsetrue
Krextor XMLETLstaticxslttruemanualистиналожь
MAPONTO RDBETLстатическийсобственныйистинаруководствоистиналожь
METAmorphoses RDBETLстатическийпроприетарный xml язык сопоставления на основеtruemanualfalsetrue
MappingMaster CSVETLстатическийMappingMastertrueGUIfalsetrue
ODEMapster RDBETLстатическийсобственныйtrueручнойtruetrue
OntoWiki CSV Модуль импорта - DataCube Tabular CSVETLstaticДанные RDF Cube Vocaublarytrueполуавтоматическийfalsetrue
Poolparty Extraktor (PPX) XML, текстLinkedDataдинамическийRDF (SKOS)trueполуавтоматическийtruefalse
RDBToOnto RDBETLstaticнетfalseавтоматически, пользователь, кроме того, имеет шанс для точной настройки результатовfalsetrue
RDF 123 CSVETLstaticfalseложьручнаяложьправда
RDOTE RDBETLстатическаяSQLtrueвручнуюtruetrue
Relational.OWL RDBETLстатическийнетfalseавтоматическийfalsefalse
T2LD CSVETLстатическийfalsefalseавтоматическийfalsefalse
Словарь куба данных RDF Многомерные статистические данные в электронных таблицахКуб данных Словарьtruemanualfalse
TopBraid Composer CSVETLstaticSKOSfalseполуавтоматическийfalsetrue
Triplify RDBLinkedDatadynamicSQLtruemanualfalsefalse
Ultrawrap RDBSPARQL/ETLдинамическийtrueполуавтоматическийfalsetrue
Virtuoso RDF Views RDBSPARQLdynamicЯзык мета-схемыtrueполуавтоматическийfalsetrue
Virtuoso Sponger структурированные и полуструктурированные источники данныхSPARQLдинамическийVirtuoso PL XSLTtrueполуавтоматическийложныйложный
VisAVis RDBRDQLдинамическийSQLtruemanualtruetrue
XLWrap: электронная таблица в RDF CSVETLстатическийСинтаксис TriGtrueвручнуюfalsefalse
XML to RDF XMLETLstaticfalsefalseautomaticfalsefalse
Извлечение из источников на естественном языке

Наибольшая часть информации, содержащейся в деловых документах (о 80%) закодирован на естественном языке и поэтому неструктурирован. Поскольку неструктурированные данные представляют собой сложную задачу для извлечения знаний, требуются более сложные методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако возможность массового приобретения извлеченных знаний должна компенсировать возросшую сложность и снижение качества извлечения. В дальнейшем источники на естественном языке понимаются как источники информации, где данные представлены в неструктурированном виде в виде простого текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.

Лингвистическая аннотация / обработка естественного языка (NLP)

В качестве этапа предварительной обработки для извлечения знаний может потребоваться выполнение лингвистической аннотации одним или несколькими инструментами NLP. Отдельные модули в рабочем процессе НЛП обычно строятся на специфичных для инструмента форматах ввода и вывода, но в контексте извлечения знаний были применены структурированные форматы для представления лингвистических аннотаций.

Типичные задачи НЛП, относящиеся к извлечению знаний, включают:

  • тегирование части речи (POS)
  • лемматизацию (LEMMA) или выделение корней (STEM)
  • смысл слова устранение неоднозначности (WSD, связанный с семантической аннотацией ниже)
  • распознавание именованных объектов (NER, также см. IE ниже)
  • синтаксический синтаксический анализ, часто использующий синтаксические зависимости (DEP)
  • неглубокий синтаксический анализ (CHUNK): если производительность является проблемой, разбиение на фрагменты дает быстрое извлечение номинальных и других фраз
  • разрешение анафоры (см. разрешение кореферентности в IE ниже, но здесь рассматривается как задача по созданию связей между текстовыми упоминаниями а не между упоминанием объекта и абстрактным представлением объекта)
  • маркировка семантической роли (SRL, связанная с извлечением отношения; не путать с семантической аннотацией, как описано ниже)
  • анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)

В НЛП такие данные обычно представляют отправляется в форматах TSV (форматы CSV с TAB в качестве разделителей), часто называемые форматами CoNLL. Для рабочих процессов извлечения знаний RDF-представления таких данных были созданы в соответствии со следующими стандартами сообщества:

  • Формат обмена NLP (NIF, для многих распространенных типов аннотаций)
  • Web Annotation (WA, часто используется для связывания объектов)
  • CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV)

Другие форматы, зависящие от платформы, включают

  • Формат обмена LAPPS (LIF, используемый в таблице LAPPS)
  • Формат аннотаций NLP (NAF, используемый в системе управления рабочим процессом NewsReader)

Традиционное извлечение информации (IE)

Традиционное извлечение информации - это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды идентифицируемой информации должны быть указаны в модели до начала процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.

Задача распознавания именованных сущностей состоит в том, чтобы распознать и классифицировать все именованные сущности, содержащиеся в тексте (присвоение именованной сущности предопределенной категории). Это работает с применением методов, основанных на грамматике или статистических моделей.

Разрешение Coreference идентифицирует эквивалентные сущности, которые были распознаны NER, в тексте. Есть два важных типа отношений эквивалентности. Первый относится к отношениям между двумя представленными объектами (например, IBM Europe и IBM), а второй - к отношениям между объектами их анафорическими ссылками (например, он и IBM). Оба вида можно распознать по разрешающей способности кореференции.

Во время создания элемента системы IE идентифицирует описательные свойства сущностей, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам таким как красный или большой.

Построение отношений шаблона определяет отношения, которые существуют между элементами. Эти могут быть отношения нескольких видов, например, для работы или нахождения, с ограничением, что и домен, и диапазон соответствуют объектам.

В шаблоне сценария производственные события, которые обеспечивают в тексте, идентифицированы и структурированы сущностей, распознаваемых NER и CO, и отношений идентифицированных TR.

Извлечение информации на основе онтологий (OBIE)

Извлечение информации на основе онтологий - это подполе извлечения информации, в котором используется процесс управления как минимум одна онтология извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концептов, экземпляров и отношений используемых онтологий в тексте, которые после процесса структурированы в онтологию. Таким образом, входные онтологии составляют модель извлекаемой информации.

Изучение онтологий (OL)

Изучение онтологий - это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов создания области из текста на естественном языке. Время работы онтологий вручную трудоемко и требует много времени, есть большая мотивация для автоматизированного процесса.

Семантическая аннотация (SA)

Во время семантической аннотации текст на естественном языке дополняется метаданными (часто представленными в RDFa ), которые должны формировать семантикуся в нем терминов. -понятно. В этом процессе, который обычно является полуавтоматическим, извлекаются знания в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом, получается знание, какое значение термина в обрабатываемом контексте было предназначено, и, следовательно, значение текста основывается на машиночитаемых данных с помощью делать выводы. Семантическая две аннотация обычно разделяется на следующие подзадачи.

  1. Извлечение терминологии
  2. Связывание сущностей

На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и решает сокращения. Затем термины из текста, используемые концепции, извлекаются с помощью предметно-ориентированного словаря, чтобы связать их призывания сущностей.

В сущности устанавливается связь между извлеченными лексическими терминами исходного текста и концепциями из онтологии или базы знаний, такой как DBpedia. Для этого с помощью лексики выявляются подходящие концепты к нескольким значениям термина. Наконец, терминов анализируется, чтобы определить наиболее подходящее устранение неоднозначности и присвоить термин правильному понятию.

Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантическим синтаксическим анализом, как понимается при обработке естественного языка (называемой «семантической аннотацией»): Семантический синтаксический анализ нацелен на полное, машиночитаемое представление естественного языка, тогда как семантическая аннотация в смысле извлечения знаний очень элементарный аспект этого.

Инструменты

Следующие правила можно использовать для категоризации инструментов, извлекающих знания из текста на естественном языке.

ИсточникКакие входные форматы могут обрабатываться инструментом (например, обычный текст, HTML или PDF)?
Парадигма доступаМожет ли инструмент запрашивать источник данных или для процесса извлечения требуется полный дамп?
Синхронизация данныхСинхронизирован ли результат процесса извлечения с источника?
Использует онтологию вывода Связывает ли инструмент результат с онтологией?
Автоматизация картографииНасколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)?
Требуется онтологияНужна ли инструменту онтология для извлечения?
Использует графический интерфейсПредлагает ли инструмент графический интерфейс пользователя?
ПодходКакой подход (IE, OBIE, OL или SA) используется инструментом?
Извлеченные сущностиКакие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены инструментом?
Прикладные методыКакие методы применяются (например, НЛП, статистические методы, кластеризация или машинное обучение )?
Модель выводаКакая модель используется для представления результата работы инструмента (например, RDF или OWL)?
Поддерживаемые доменыКакие домены поддерживаются (например, экономика или биология)?
Поддерживаемые языкиКакие языки можно обрабатывать (например, английский или немецкий)?

В следующей таблице некоторые инструменты для извлечения знаний из источников на естественном языке.

ИмяИсточникПарадигма доступаСинхронизация данныхИспользует онтологию выводаАвтоматизация отображенияТребуется онтологияИспользует GUIПодходИзвлеченные сущностиПрикладные методыМодель выводаПоддерживаемые доменыПоддерживаемые языки
[1] обычный текст, HTML, XML, SGMLдампnoдаавтоматическидадаIEименованные сущности, отношения, событиялингвистические правилапроприетарныенезависимые от доменаанглийский, испанский, арабский, Китайский, индонезийский
AlchemyAPI обычный текст, HTMLавтоматическидаSAмногоязычный
ANNIE простой текстдампдадаIEалгоритмы конечного состояниямногоязычный
ASIUM простой текстдампполуавтоматическийдаOL, структура концепцийNLP, кластеризация
Attensity Exhaustive Extraction автоматическаяIEименованные сущности, отношения, событияNLP
Dandelion API простой текст, HTML, URLRESTnonoавтоматическиnoдаSAименованные сущности, концепциистатистические методыJSONнезависимый от доменамногоязычный
DBpedia Spotlight обычный текст, HTMLдамп, SPARQLдадаавтоматическаяnoдаSAаннотация к каждому слову, аннотация к непрерывным словамНЛП, статистические методы, машинное обучениеRDFaнезависимый от доменарусский
EntityClassifier.eu обычный текст, HTMLдампдадаавтоматическийnoдаIE, OL, SAаннотация к каждому слову, аннотация к непрерывным словамграмматика на основе правилXMLнезависимый от доменаанглийский, немецкий, голла ндский
FRED простой текстдамп, REST APIдадаавтоматическийnoдаIE, OL, SA, шаблоны проектирования онтологий, семантика кадра (много-) словная аннотация NIF или EarMark, предикаты, экземпляры, композиции итоговая семантика, таксономии понятий, фреймы, семантические роли, перифрастические отношения, события, модальность, время, связь сущностей, связь событий, тональностьНЛП, машинное обучение, эвристические правилаRDF / OWLдомен-независимыйанглийский, другие языки через перевод
iDocument HTML, PDF, DOCSPARQLдадаOBIEэкземпляры, значения свойстваNLPличный, деловой
NetOwl Extractor простой текст, HTML, XML, SGML, PDF, MS OfficeдампNoДаАвтоматическидаДаIEименованные сущности, отношения, событияNLPXML, JSON, RDF-OWL и другиенеск олько доменовАнглийский, арабский, китайский (упрощенный и традиционный), французский, корейский, персидский (фарси и дари), русский, испанский
OntoGen полуавтоматическийдаOLконцепция, иерархия понятий, не таксономические отношения, экземплярыНЛП, машинное обучение, кластеризация
OntoLearn простой текст, HTMLдампnoдаавтоматическидаnoOLконцепции, иерархия понятий, экземплярыNLP, статистические методысобственныенезависимый от доменаанглийский
OntoLearn Reloaded обычный текст, HTMLдампnoдаавтоматическийдаnoOLконцепции, иерархия понятий, экземплярыНЛП, статистические методыпроприетарныеНезависимые от предметной областианглийский
OntoSyphon HTML, PDF, DOCдамп, поисковые запросыnoдаавтоматическидаnoOBIE, концепции, экземплярыНЛП, статистические методыRDFдомен-независимыйанглийский
onX простой текстдампnoдаполуавтоматическийдаnoэкземпляры OBIE, значения Свойства типа данныхметоды на основе эвристикипроприетарныенезависимый от доменанезависимый от языка
OpenCalais простой текст, HTML, XMLдампnoдаавтоматическидаnoSAаннотации к сущностям, аннотации к событиям, аннотации к фактамНЛП, машинное обучениеRDFдоменно-независимыйанглийский, французский, испанский
PoolParty Extractor простой текст, HTML, DOC, ODTдампnoдаавтоматическидадаOBIEименованные сущности, концепции, отношения, которые классифицируют текст, обогащенияНЛП, машинное обучение, статистические методыRDF, OWLнезависимый от доменаанглийский, немецкий, испанский, французский
Rosoka простой текст, HTML, XML, SGML, PDF, MS OfficeдампДаДаАвтоматическиnoДаIEизвлечение именованных сущностей, разрешение сущностей, извлечение взаимосвязей, атрибуты, концепции, многовекторность анализ тональности, геотеги, идентификация языка NLP, машинное обучениеXML, JSON, POJO, RDFнесколько доменов200+ многоязычных языков
SCOOBIE обычный текст, HTMLдампnoye sавтоматическиеnonoэкземпляры OBIE, значения свойств, типы RDFSNLP, машинное обучениеRDF, RDFaнезависимый от доменаанглийский, немецкий
SemTag HTMLдампnoданезависимое автоматическоедаnoSAмашинное обучениезапись базы данныхая от доменаая от языка
smart FIX обычный текст, HTML, PDF, DOC, электронная почтадампдаnoавтоматическийnoдаOBIEименованные сущностиНЛП, машинное обучениепроприетарныйнезависимый от доменаанглийский, немецкий, французский, голландский, польский
Text2Onto обычный текст, HTML, PDFдампдаnoполуавтоматическийдадаOLконцепции, иерархия понятий, нетаксономические отношения, экземпляры, аксиомыНЛП, статистические методы, машинное обучение, методы на основе правилOWLdeomain-independentАнглийский, немецкий, испанский
Text-To-Onto простой текст, HTML, PDF, PostScriptдампполуавтоматическийдадаOLпонятия, иерархия понятий, нетаксономические отношения, лексические объекты, относящиеся к концептам, лексические объекты, относящиеся к отношениямНЛП, машинное обучение, кластеризация, статистические методыНемецкий
ThatNeedle Обычный текстдампавтоматическийнетконцепции, отношения, иерархияНЛП, проприетарныйJSONнесколько доменованглийский
The Wiki Machine простой текст, HTML, PDF, DOCдампnoдаавтоматическийдадаSAаннотация к существующему собственному, аннотация к существительным нарицательныммашинное обучениеRDFaдомен- независимыйанглийский, немецкий, испанский, французский, португальский, итальянский, русский
ThingFinder IEименованные сущности, отношения, событиямногоязычный
открытие знаний

открытие знаний описывает процесс автоматического поиска в больших объемах данных шаблонов, которые могут считаться знаниями о данных. Это часто описывается как получение знаний из входных данных. Поиск знаний развился из области интеллектуального анализа данных и тесно связан с ней как с точки зрения методологии, так и с точки зрения терминологии.

Наиболее известная ветвь интеллектуального анализа данных - это обнаружение знаний, также известное как обнаружение знаний в базах данных (KDD). Как и многие другие формы открытия знаний, он создает абстракции входных данных. Знания, полученные в процессе, могут стать дополнительными данными, которые можно использовать для дальнейшего использования и обнаружения. Часто результаты обнаружения знаний не требуют действий, обнаружение знаний с практическими действиями, также известное как анализ данных на основе предметной области, нацелено на обнаружение и предоставление практических знаний и идей.

Еще одно многообещающее применение обнаружения знаний - это область модернизации программного обеспечения, обнаружения слабых мест и соответствия требованиям, что предполагает понимание существующих программных артефактов. Этот процесс связан с концепцией обратного проектирования. Обычно знания, полученные с помощью существующего программного обеспечения, представлены в виде моделей, к которым при необходимости могут быть сделаны конкретные запросы. Отношение сущностей - это частый формат представления знаний, полученных из существующего программного обеспечения. Группа управления объектами (OMG) разработала спецификацию Метамодель обнаружения знаний (KDM), которая определяет онтологию для программных активов и их взаимосвязей с целью выполнения обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известное как интеллектуальный анализ программного обеспечения, тесно связано с интеллектуальным анализом данных, поскольку существующие программные артефакты имеют огромное значение для управления рисками и бизнес-ценности, ключ для оценки и развития программных систем. Вместо анализа отдельных наборов данных, программный анализ фокусируется на метаданных, таких как потоки процессов (например, потоки данных, потоки управления и карты вызовов), архитектура, схемы базы данных и бизнес-правила / условия / процесс.

Входные данные

Форматы вывода

См. Также
Ссылки
Последняя правка сделана 2021-05-25 11:39:41
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте