Профилирование данных - это процесс изучения данных, доступных из существующего источника информации (например, базы данных или файла ), и сбора статистики или информативных сводок об этих данных. Целью этой статистики может быть следующее:
Профилирование данных относится к анализу информации для использования в хранилище данных с целью уточнения структуры, содержания, взаимосвязей и правила вывода данных. Профилирование помогает не только понять аномалии и оценить качество данных, но также обнаружить, зарегистрировать и оценить метаданные предприятия. Результат анализа используется для определения пригодности исходных систем-кандидатов, что обычно дает основу для принятия решения на раннем этапе работы / отказа, а также для выявления проблем для последующего проектирования решения.
Профилирование данных использует методы описательной статистики, такие как минимум, максимум, среднее значение, режим, процентиль, стандартное отклонение, частота, вариация, агрегаты, такие как количество и сумма, а также дополнительную информацию метаданных, полученную во время профилирования данных, например как тип данных, длина, дискретные значения, уникальность, наличие нулевых значений, типичные строковые шаблоны и распознавание абстрактного типа. Затем метаданные можно использовать для обнаружения таких проблем, как недопустимые значения, орфографические ошибки, пропущенные значения, изменяющееся представление значений и дубликаты.
Для разных структурных уровней проводятся разные анализы. Например. отдельные столбцы можно профилировать индивидуально, чтобы получить представление о частотном распределении различных значений, типов и использования каждого столбца. Зависимости встроенных значений могут быть выявлены в кросс-столбцовом анализе. Наконец, перекрывающиеся наборы значений, возможно, представляющие отношения внешнего ключа между сущностями, могут быть исследованы в межтабличном анализе.
Обычно для профилирования данных используются специальные инструменты, упрощающие процесс. Сложность вычислений возрастает при переходе от одного столбца к отдельной таблице к структурному профилированию между таблицами. Следовательно, производительность является критерием оценки для инструментов профилирования.
Согласно Кимбаллу, профилирование данных выполняется несколько раз и с разной интенсивностью на протяжении всего процесса разработки хранилища данных. Незначительную оценку профилирования следует проводить сразу же после того, как были определены исходные системы-кандидаты и были выполнены бизнес-требования DW / BI. Цель этого первоначального анализа - уточнить на ранней стадии, доступны ли правильные данные на соответствующем уровне детализации и что с аномалиями можно будет впоследствии справиться. В противном случае проект может быть прекращен.
Кроме того, перед процессом размерного моделирования выполняется более глубокое профилирование, чтобы оценить, что требуется для преобразования данных в размерную модель. Подробное профилирование распространяется на процесс проектирования системы ETL, чтобы определить, какие данные следует извлечь и какие фильтры применить к набору данных.
Кроме того, профилирование данных может проводиться в процессе разработки хранилища данных после того, как данные были были загружены в промежуточную среду, витрины данных и т. д. Ведение данных на этих этапах помогает гарантировать, что очистка и преобразование данных были выполнены правильно и в соответствии с требованиями.
Преимущества профилирования данных заключаются в повышении качества данных, сокращении цикла реализации крупных проектов и улучшении понимания данных пользователями. Обнаружение бизнес-знаний, встроенных в сами данные, является одним из значительных преимуществ профилирования данных. Профилирование данных - одна из самых эффективных технологий для повышения точности данных в корпоративных базах данных.