Профилирование данных

редактировать

Профилирование данных - это процесс изучения данных, доступных из существующего источника информации (например, базы данных или файла ), и сбора статистики или информативных сводок об этих данных. Целью этой статистики может быть следующее:

Определить, могут ли существующие данные легко использоваться для других целей
Улучшить возможность поиска данных, пометив их ключевыми словами, описания или отнесение их к категории
Оценка качества данных, включая соответствие данных определенным стандартам или шаблонам
Оценка риска, связанного с интеграция данных в новые приложения, включая проблемы объединений
Обнаружение метаданных исходной базы данных, включая шаблоны значений и распределения, ключевые кандидаты, кандидаты внешнего ключа и функциональные зависимости
Оценить, точно ли известные метаданные описывают фактические значения в исходной базе данных
Понимание проблем с данными на ранней стадии любой проект с интенсивным использованием данных, чтобы избежать сюрпризов в конце проекта. Обнаружение проблем с данными на поздних этапах проекта может привести к задержкам и перерасходу средств.
Имейте корпоративное представление всех данных для таких целей, как управление основными данными, где необходимы ключевые данные, или управление данными для повышения качества данных.

Содержание

1 Введение
2 Как проводится профилирование данных
3 Когда проводится профилирование данных
4 Преимущества и примеры
5 См. Также
6 Ссылки

Введение

Профилирование данных относится к анализу информации для использования в хранилище данных с целью уточнения структуры, содержания, взаимосвязей и правила вывода данных. Профилирование помогает не только понять аномалии и оценить качество данных, но также обнаружить, зарегистрировать и оценить метаданные предприятия. Результат анализа используется для определения пригодности исходных систем-кандидатов, что обычно дает основу для принятия решения на раннем этапе работы / отказа, а также для выявления проблем для последующего проектирования решения.

Как профилирование данных

Профилирование данных использует методы описательной статистики, такие как минимум, максимум, среднее значение, режим, процентиль, стандартное отклонение, частота, вариация, агрегаты, такие как количество и сумма, а также дополнительную информацию метаданных, полученную во время профилирования данных, например как тип данных, длина, дискретные значения, уникальность, наличие нулевых значений, типичные строковые шаблоны и распознавание абстрактного типа. Затем метаданные можно использовать для обнаружения таких проблем, как недопустимые значения, орфографические ошибки, пропущенные значения, изменяющееся представление значений и дубликаты.

Для разных структурных уровней проводятся разные анализы. Например. отдельные столбцы можно профилировать индивидуально, чтобы получить представление о частотном распределении различных значений, типов и использования каждого столбца. Зависимости встроенных значений могут быть выявлены в кросс-столбцовом анализе. Наконец, перекрывающиеся наборы значений, возможно, представляющие отношения внешнего ключа между сущностями, могут быть исследованы в межтабличном анализе.

Обычно для профилирования данных используются специальные инструменты, упрощающие процесс. Сложность вычислений возрастает при переходе от одного столбца к отдельной таблице к структурному профилированию между таблицами. Следовательно, производительность является критерием оценки для инструментов профилирования.

При профилировании данных

Согласно Кимбаллу, профилирование данных выполняется несколько раз и с разной интенсивностью на протяжении всего процесса разработки хранилища данных. Незначительную оценку профилирования следует проводить сразу же после того, как были определены исходные системы-кандидаты и были выполнены бизнес-требования DW / BI. Цель этого первоначального анализа - уточнить на ранней стадии, доступны ли правильные данные на соответствующем уровне детализации и что с аномалиями можно будет впоследствии справиться. В противном случае проект может быть прекращен.

Кроме того, перед процессом размерного моделирования выполняется более глубокое профилирование, чтобы оценить, что требуется для преобразования данных в размерную модель. Подробное профилирование распространяется на процесс проектирования системы ETL, чтобы определить, какие данные следует извлечь и какие фильтры применить к набору данных.

Кроме того, профилирование данных может проводиться в процессе разработки хранилища данных после того, как данные были были загружены в промежуточную среду, витрины данных и т. д. Ведение данных на этих этапах помогает гарантировать, что очистка и преобразование данных были выполнены правильно и в соответствии с требованиями.

Преимущества и примеры

Преимущества профилирования данных заключаются в повышении качества данных, сокращении цикла реализации крупных проектов и улучшении понимания данных пользователями. Обнаружение бизнес-знаний, встроенных в сами данные, является одним из значительных преимуществ профилирования данных. Профилирование данных - одна из самых эффективных технологий для повышения точности данных в корпоративных базах данных.