Обнаружение метаданных

редактировать

В метаданных, метаданные обнаружение (также сбор метаданных) является процессом с использованием автоматизированных средств, чтобы обнаружить семантику о наличии элемента данных в наборах данных. Этот процесс обычно заканчивается набором сопоставлений между элементами источника данных и централизованным реестром метаданных. Обнаружение метаданных также известно как сканирование метаданных.

СОДЕРЖАНИЕ
  • 1 Форматы источников данных для обнаружения метаданных
  • 2 Таксономия алгоритмов сопоставления метаданных
    • 2.1 Лексическое соответствие
    • 2.2 Семантическое соответствие
    • 2.3 Статистическое сопоставление
  • 3 Продавца
  • 4 Исследования
  • 5 См. Также
  • 6 Ссылки
    • 6.1 Цитаты
    • 6.2 Источники
Форматы источников данных для обнаружения метаданных

Наборы данных могут быть в различных формах, включая:

  1. Реляционные базы данных
  2. Базы данных NoSQL
  3. Таблицы
  4. XML файлы
  5. Веб-сервисы
  6. Исходный код программного обеспечения, такой как Fortran, Jovial, COBOL, Assembler, RPG, PL / 1, EasyTrieve, классы Java, C # или C ++, а также тысячи других программных языков.
  7. Неструктурированные текстовые документы, такие как файлы Microsoft Word или PDF.
Таксономия алгоритмов сопоставления метаданных

Есть отдельные категории автоматического обнаружения метаданных:

Лексическое соответствие

  1. Точное совпадение - когда связи элементов данных устанавливаются на основе точного имени столбца в базе данных, имени элемента XML или метки на экране. Например, если столбец базы данных имеет имя «PersonBirthDate», а элемент данных в реестре метаданных также имеет имя «PersonBirthDate», автоматические инструменты могут сделать вывод, что столбец базы данных имеет ту же семантику (значение), что и элемент данных. в реестре метаданных.
  2. Сопоставление синонимов - инструменту обнаружения присваивается не просто одно имя, а набор синонимов.
  3. Соответствие шаблону - в этом случае инструментам дается набор лексических шаблонов, которые он может сопоставить. Например, инструменты могут искать «* пол *» или «* пол *».

Семантическое соответствие

Семантическое сопоставление пытается использовать семантику для связывания целевых данных с зарегистрированными элементами данных.

  1. Семантическое сходство - в этом алгоритме используется база данных концептуальной близости слов. Например, система WordNet может оценивать, насколько слова концептуально близки друг другу. Например, термины «Человек», «Индивидуум» и «Человек» могут быть очень похожими понятиями.

Статистическое сопоставление

Статистическое сопоставление использует статистику самих данных источников данных для выявления сходства с зарегистрированными элементами данных.

  1. Анализ отличных значений - анализируя все отдельные значения в столбце, можно сделать сходство с зарегистрированным элементом данных. Например, если в столбце есть только два различных значения «мужской» и «женский», это может быть сопоставлено с «PersonGenderCode».
  2. Анализ распределения данных - анализируя распределение значений в пределах одного столбца и сравнивая это распределение с известными элементами данных, можно сделать вывод о семантической связи.
Продавцы

Следующие поставщики (перечислены в алфавитном порядке) предоставляют программное обеспечение и решения для обнаружения и сопоставления метаданных.

  • Атлан (см. [1] )
  • BigHand / Esquire Innovations (см. [2] )
  • IBM
  • Таленд
  • InfoLibrarian Corporation (см. [3] )
  • Приложение базы данных метаданных MindHARBOR (см. [4] )
  • Octopai - кроссплатформенная автоматизация обнаружения и управления метаданными (см. [5] )
  • Revelytix (см. [6] )
  • Системы Силвер-Крик (см. [7] )
  • Stratio (см. Надежность данных - основа успешных компаний )
  • Sypherlink: Харвестер (см. [8] )
  • Unicorn Systems (см. [9] )
Исследовать
Смотрите также
Рекомендации

Цитаты

Источники

Последняя правка сделана 2024-01-02 08:24:19
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте