Обнаружение метаданных
редактировать
В метаданных, метаданные обнаружение (также сбор метаданных) является процессом с использованием автоматизированных средств, чтобы обнаружить семантику о наличии элемента данных в наборах данных. Этот процесс обычно заканчивается набором сопоставлений между элементами источника данных и централизованным реестром метаданных. Обнаружение метаданных также известно как сканирование метаданных.
СОДЕРЖАНИЕ
- 1 Форматы источников данных для обнаружения метаданных
- 2 Таксономия алгоритмов сопоставления метаданных
- 2.1 Лексическое соответствие
- 2.2 Семантическое соответствие
- 2.3 Статистическое сопоставление
- 3 Продавца
- 4 Исследования
- 5 См. Также
- 6 Ссылки
Форматы источников данных для обнаружения метаданных
Наборы данных могут быть в различных формах, включая:
- Реляционные базы данных
- Базы данных NoSQL
- Таблицы
- XML файлы
- Веб-сервисы
- Исходный код программного обеспечения, такой как Fortran, Jovial, COBOL, Assembler, RPG, PL / 1, EasyTrieve, классы Java, C # или C ++, а также тысячи других программных языков.
- Неструктурированные текстовые документы, такие как файлы Microsoft Word или PDF.
Таксономия алгоритмов сопоставления метаданных
Есть отдельные категории автоматического обнаружения метаданных:
Лексическое соответствие
- Точное совпадение - когда связи элементов данных устанавливаются на основе точного имени столбца в базе данных, имени элемента XML или метки на экране. Например, если столбец базы данных имеет имя «PersonBirthDate», а элемент данных в реестре метаданных также имеет имя «PersonBirthDate», автоматические инструменты могут сделать вывод, что столбец базы данных имеет ту же семантику (значение), что и элемент данных. в реестре метаданных.
- Сопоставление синонимов - инструменту обнаружения присваивается не просто одно имя, а набор синонимов.
- Соответствие шаблону - в этом случае инструментам дается набор лексических шаблонов, которые он может сопоставить. Например, инструменты могут искать «* пол *» или «* пол *».
Семантическое соответствие
Семантическое сопоставление пытается использовать семантику для связывания целевых данных с зарегистрированными элементами данных.
- Семантическое сходство - в этом алгоритме используется база данных концептуальной близости слов. Например, система WordNet может оценивать, насколько слова концептуально близки друг другу. Например, термины «Человек», «Индивидуум» и «Человек» могут быть очень похожими понятиями.
Статистическое сопоставление
Статистическое сопоставление использует статистику самих данных источников данных для выявления сходства с зарегистрированными элементами данных.
- Анализ отличных значений - анализируя все отдельные значения в столбце, можно сделать сходство с зарегистрированным элементом данных. Например, если в столбце есть только два различных значения «мужской» и «женский», это может быть сопоставлено с «PersonGenderCode».
- Анализ распределения данных - анализируя распределение значений в пределах одного столбца и сравнивая это распределение с известными элементами данных, можно сделать вывод о семантической связи.
Продавцы
Следующие поставщики (перечислены в алфавитном порядке) предоставляют программное обеспечение и решения для обнаружения и сопоставления метаданных.
- Атлан (см. [1] )
- BigHand / Esquire Innovations (см. [2] )
- IBM
- Таленд
- InfoLibrarian Corporation (см. [3] )
- Приложение базы данных метаданных MindHARBOR (см. [4] )
- Octopai - кроссплатформенная автоматизация обнаружения и управления метаданными (см. [5] )
- Revelytix (см. [6] )
- Системы Силвер-Крик (см. [7] )
- Stratio (см. Надежность данных - основа успешных компаний )
- Sypherlink: Харвестер (см. [8] )
- Unicorn Systems (см. [9] )
Исследовать
- Проект INDUS в Университете штата Айова (см. [10] )
- Ртуть - распределенная система управления метаданными и обнаружения данных, разработанная в Окриджской национальной лаборатории DAAC (см. [11] )
Смотрите также
Рекомендации
Цитаты
Источники