Структурная добыча

редактировать

Анализ структуры или структурированного анализа данных - это процесс поиска и извлечения полезной информации из полуструктурированных наборов данных. Анализ графов, последовательных шаблонов и молекул - частные случаи интеллектуального анализа структурированных данных.

СОДЕРЖАНИЕ

1 Описание
2 См. Также
3 ссылки
4 Внешние ссылки

Описание

Рост использования полуструктурированных данных создал новые возможности для интеллектуального анализа данных, который традиционно был связан с табличными наборами данных, что отражает тесную связь между интеллектуальным анализом данных и реляционными базами данных. Большая часть интересных и полезных данных в мире нелегко складывается в реляционные базы данных, хотя поколение программистов было обучено верить, что это единственный способ обработки данных, а алгоритмы интеллектуального анализа данных обычно разрабатывались только для работы с табличными данными..

XML, являясь наиболее частым способом представления полуструктурированных данных, может представлять как табличные данные, так и произвольные деревья. Любое конкретное представление данных, которыми должны обмениваться два приложения в XML, обычно описывается схемой, часто написанной на XSD. Практические примеры таких схем, например NewsML, обычно очень сложны и содержат несколько необязательных поддеревьев, используемых для представления данных особого случая. Часто около 90% схемы связано с определением этих дополнительных элементов данных и поддеревьев.

Следовательно, сообщения и данные, которые передаются или кодируются с использованием XML и соответствуют одной и той же схеме, могут содержать очень разные данные в зависимости от того, что передается.

Такие данные представляют собой большие проблемы для традиционного интеллектуального анализа данных. Два сообщения, которые соответствуют одной и той же схеме, могут иметь мало общих данных. Построение обучающего набора из таких данных означает, что если попытаться отформатировать его как табличные данные для обычного интеллектуального анализа данных, большие разделы таблиц будут или могут оказаться пустыми.

При разработке большинства алгоритмов интеллектуального анализа данных предполагается, что представленные данные будут полными. Другая необходимость заключается в том, что используемые фактические алгоритмы интеллектуального анализа данных, контролируемые или неконтролируемые, должны иметь возможность обрабатывать разреженные данные. А именно, алгоритмы машинного обучения плохо работают с неполными наборами данных, в которых предоставляется только часть информации. Например, методы на основе нейронных сетей. или Росс Куинлан «s алгоритм ID3. очень точны с хорошими и репрезентативными выборками проблемы, но плохо работают с предвзятыми данными. В большинстве случаев достаточно лучшего представления модели с более тщательным и непредвзятым представлением входных и выходных данных. Особенно актуальной областью, в которой поиск подходящей структуры и модели является ключевым вопросом, является интеллектуальный анализ текста.

XPath - это стандартный механизм, используемый для ссылки на узлы и элементы данных в XML. Он имеет сходство со стандартными методами навигации по иерархиям каталогов, используемыми в пользовательских интерфейсах операционных систем. Для анализа данных и структуры XML-данных любой формы требуются как минимум два расширения для обычного интеллектуального анализа данных. Это возможность связать оператор XPath с любым шаблоном данных и под-операторами с каждым узлом данных в шаблоне данных, а также возможность отслеживать наличие и подсчет любого узла или набора узлов в документе.

В качестве примера, если бы кто-то изобразил генеалогическое древо в XML, используя эти расширения, можно было бы создать набор данных, содержащий все индивидуальные узлы в дереве, элементы данных, такие как имя и возраст на момент смерти, и количество связанных узлов, таких как как количество детей. Более сложные поисковые запросы могут извлекать такие данные, как продолжительность жизни бабушек и дедушек и т. Д.

Добавление этих типов данных, связанных со структурой документа или сообщения, упрощает анализ структуры.

Смотрите также

использованная литература

Эндрю Эдмондс, О древовидной структуре данных в XML для интеллектуального анализа данных », Конференция по интеллектуальному анализу данных в Великобритании, Ноттингемский университет, август 2003 г.
Гусфилд Д. Алгоритмы на строках, деревьях и последовательностях: информатика и вычислительная биология, Cambridge University Press, 1997. ISBN 0-521-58519-8
Р. О. Дуда, П. Е. Харт, Д. Г. Аист, Классификация образцов, John Wiley amp; Sons, 2001. ISBN 0-471-05669-3
Ф. Хаджич, Х. Тан, Т. С. Диллон, Интеллектуальный анализ данных со сложной структурой, Springer, 2010. ISBN 978-3-642-17556-5

внешние ссылки

5-й Международный семинар по горному делу и обучению с помощью графиков, Флоренция, 1-3 августа 2007 г.