Очистка данных

редактировать

Исправление неточных компьютерных записей

Очистка данных или очистка данных - это процесс обнаружения и исправление (или удаление) поврежденных или неточных записей из набора записей, таблицы или базы данных и относится к выявлению неполных, неправильных, неточных или нерелевантных частей данные, а затем замена, изменение или удаление грязных или грубых данных. Очистка данных может выполняться интерактивно с помощью инструментов обработки данных или как пакетная обработка - сценарии.

После очистки набор данных должен соответствовать другим подобным наборам данных в системе. Обнаруженные или устраненные несоответствия могут быть первоначально вызваны ошибками ввода пользователя, повреждением при передаче или хранении или различными определениями словаря данных аналогичных объектов в разных хранилищах. Очистка данных отличается от проверки данных тем, что проверка почти всегда означает, что данные отклоняются из системы при вводе и выполняется во время ввода, а не для пакетов данных.

Фактический процесс очистки данных может включать удаление типографских ошибок или проверку и исправление значений по известному списку объектов. Проверка может быть строгой (например, отклонение любого адреса, не имеющего действительного почтового индекса ) или нечетким (например, исправление записей, которые частично совпадают с существующими известными записями). Некоторые решения для очистки данных будут очищать данные путем перекрестной проверки с подтвержденным набором данных. Распространенной практикой очистки данных является улучшение данных, когда данные становятся более полными за счет добавления связанной информации. Например, добавление адресов к любым телефонным номерам, связанным с этим адресом. Очистка данных может также включать гармонизацию (или нормализацию) данных, которая представляет собой процесс объединения данных «различных форматов файлов, соглашений об именах и столбцов» и преобразования их в один связанный набор данных; простой пример - расширение сокращений («улица, дорога и т. д.» до «улица, дорога и т. д.»).

Содержание

1 Мотивация
2 Качество данных
3 Процесс
4 Система
5 Инструменты
6 Экраны качества
7 Критика существующих инструментов и процессов
8 Схема события ошибки
9 См. Также
10 Ссылки
11 Источники
12 Внешние ссылки

Мотивация

Административно некорректные, несогласованные данные могут привести к ложным выводам и неверному направлению инвестиции как в государственном, так и в частном масштабе. Например, правительство может захотеть проанализировать данные переписи населения, чтобы решить, в каких регионах требуются дополнительные расходы и инвестиции в инфраструктуру и услуги. В этом случае будет важно иметь доступ к надежным данным, чтобы избежать ошибочных фискальных решений. В деловом мире неверные данные могут дорого обойтись. Многие компании используют информацию о клиентах базы данных, в которых записываются такие данные, как контактная информация, адреса и предпочтения. Например, если адреса несовместимы, компания понесет расходы на повторную отправку почты или даже потерю клиентов.

Качество данных

Данные высокого качества должны соответствовать ряду критериев качества. К ним относятся:

Действительность : степень, в которой меры соответствуют определенным бизнес-правилам или ограничениям (см. Также Действительность (статистика) ). Когда современные технологии баз данных используются для разработки систем сбора данных, достоверность довольно легко обеспечить: недействительные данные возникают в основном в устаревших контекстах (где ограничения не были реализованы в программном обеспечении) или там, где использовалась неподходящая технология сбора данных (например, электронные таблицы, где очень сложно ограничить выбор пользователя для ввода в ячейку, если проверка ячейки не используется). Ограничения данных делятся на следующие категории:
- Ограничения типа данных - например, значения в определенном столбце должны иметь определенный тип данных, например, логическое, числовое (целое или действительное), дата и т. Д.
- Ограничения диапазона: обычно числа или даты должны попадать в определенный диапазон. То есть у них есть минимальные и / или максимальные допустимые значения.
- Обязательные ограничения: некоторые столбцы не могут быть пустыми.
- Уникальные ограничения: поле или комбинация полей должны быть уникальными для набор данных. Например, никакие два человека не могут иметь одинаковый номер социального страхования.
- Ограничения набора-членства: значения для столбца берутся из набора дискретных значений или кодов. Например, пол человека может быть Женский, Мужской или Неизвестный (не зарегистрирован).
- Ограничения внешнего ключа: Это более общий случай набора членства. Набор значений в столбце определяется в столбце другой таблицы, которая содержит уникальные значения. Например, в базе данных налогоплательщиков США столбец «штат» должен принадлежать одному из определенных штатов или территорий США: набор допустимых штатов / территорий записывается в отдельной таблице штатов. Термин внешний ключ заимствован из терминологии реляционных баз данных.
- Шаблоны регулярных выражений: Иногда текстовые поля необходимо проверять таким образом. Например, для номеров телефонов может потребоваться шаблон (999) 999-9999.
- Проверка между полями: должны выполняться определенные условия, в которых используется несколько полей. Например, в лабораторной медицине сумма компонентов дифференциального количества лейкоцитов должна быть равна 100 (поскольку все они являются процентными). В базе данных больницы дата выписки пациента из больницы не может быть раньше даты госпитализации.
Точность : степень соответствия меры стандартному или истинному значению - см. Также Точность и прецизионность. В общем случае очень трудно добиться точности с помощью очистки данных, поскольку для этого требуется доступ к внешнему источнику данных, который содержит истинное значение: такие данные «золотого стандарта» часто недоступны. Точность была достигнута в некоторых контекстах очистки, в частности в данных о контактах клиентов, за счет использования внешних баз данных, которые сопоставляют почтовые индексы с географическими местоположениями (город и штат), а также помогают проверять, действительно ли существуют почтовые адреса в этих почтовых индексах.
Полнота : степень, в которой известны все необходимые меры. Неполноту практически невозможно исправить с помощью методологии очистки данных: нельзя сделать вывод о фактах, которые не были зафиксированы, когда рассматриваемые данные были изначально записаны. (В некоторых контекстах, например, в данных интервью, можно исправить неполноту, вернувшись к исходному источнику данных, то есть повторно опросив субъекта, но даже это не гарантирует успеха из-за проблем с отзывом - например, в собеседование с целью сбора данных о потреблении продуктов питания, вряд ли кто-то точно вспомнит, что он ел шесть месяцев назад. В случае систем, которые настаивают на том, что определенные столбцы не должны быть пустыми, можно обойти проблему, указав значение, указывающее " неизвестно »или« отсутствует », но предоставление значений по умолчанию не означает, что данные были завершены.)
Согласованность : Степень, в которой набор показателей эквивалентен во всех системах (см. также Согласованность ). Несогласованность возникает, когда два элемента данных в наборе данных противоречат друг другу: например, заказчик зарегистрирован в двух разных системах как имеющий два разных текущих адреса, и только один из них может быть правильным. Устранение несоответствий не всегда возможно: для этого требуются различные стратегии - например, решение, какие данные были записаны в последнее время, какой источник данных, вероятно, будет наиболее надежным (последнее знание может быть специфическим для данной организации) или просто попытаться выяснить истину, проверив оба элемента данных (например, позвонив клиенту).
Однородность : степень, в которой набор показателей данных указывается с использованием одних и тех же единиц измерения во всех системах (см. также Единица измерения ). В наборах данных, собранных из разных регионов, вес может быть записан в фунтах или килограммах и должен быть преобразован в единый показатель с использованием арифметического преобразования.

Термин целостность охватывает точность, согласованность и некоторые аспекты проверки (см. также целостность данных ), но редко используется сам по себе в контекстах очистки данных, потому что он недостаточно специфичен. (Например, «ссылочная целостность » - это термин, используемый для обозначения приведенных выше ограничений внешнего ключа.)

Процесс

Аудит данных : данные проверены с использованием статистических методов и методов базы данных для обнаружения аномалий и противоречий: это в конечном итоге указывает на характеристики аномалий и их местонахождение. Несколько коммерческих программных пакетов позволят вам указать ограничения различных видов (используя грамматику, соответствующую грамматике стандартного языка программирования, например, JavaScript или Visual Basic), а затем сгенерировать код, который проверяет данные на предмет нарушения этих ограничений. Этот процесс упоминается ниже в пунктах «спецификация рабочего процесса» и «выполнение рабочего процесса». Для пользователей, у которых нет доступа к высококачественному программному обеспечению для очистки, пакеты баз данных для микрокомпьютеров, такие как Microsoft Access или File Maker Pro, также позволят вам выполнять такие проверки в зависимости от ограничений, в интерактивном режиме с минимальным программированием или без него во многих случаях..
Спецификация рабочего процесса : обнаружение и устранение аномалий выполняется с помощью последовательности операций с данными, известной как рабочий процесс. Он определяется после процесса аудита данных и имеет решающее значение для получения конечного продукта данных высокого качества. Чтобы добиться правильного рабочего процесса, необходимо внимательно рассмотреть причины аномалий и ошибок в данных.
Выполнение рабочего процесса : на этом этапе рабочий процесс выполняется после того, как его спецификация завершена, и его правильность проверено. Реализация рабочего процесса должна быть эффективной даже для больших наборов данных, что неизбежно представляет собой компромисс, поскольку выполнение операции очистки данных может быть дорогостоящим в вычислительном отношении.
Постобработка и контроль : После при выполнении рабочего процесса очистки результаты проверяются на правильность. Данные, которые не удалось исправить во время выполнения рабочего процесса, по возможности исправляются вручную. Результатом является новый цикл в процессе очистки данных, где данные снова проверяются, чтобы позволить спецификацию дополнительного рабочего процесса для дальнейшей очистки данных с помощью автоматической обработки.

Исходные данные хорошего качества связаны с «культурой качества данных» »И должен быть инициирован наверху организации. Это не просто вопрос реализации строгих проверок на экранах ввода, потому что почти независимо от того, насколько сильны эти проверки, пользователи часто могут их обойти. Существует девять шагов для организаций, которые хотят улучшить качество данных:

Заявить о приверженности высокого уровня качеству данных культуре
Провести реинжиниринг процессов на уровне руководства
Тратить деньги на улучшение среды ввода данных
Тратить деньги на улучшение интеграции приложений
Тратить деньги на изменение того, как работают процессы
Продвигать от начала до конца осведомленность команды
Содействовать межведомственному сотрудничеству
Публично отмечать высокое качество данных
Постоянно измерять и улучшать качество данных

Другие включают:

Анализ : для обнаружение синтаксических ошибок. Синтаксический анализатор решает, является ли строка данных приемлемой в рамках разрешенной спецификации данных. Это похоже на то, как синтаксический анализатор работает с грамматиками и языками.
Преобразование данных : преобразование данных позволяет отображать данные из заданного формата в формат, ожидаемый соответствующими применение. Это включает в себя преобразование значений или функции преобразования, а также нормализацию числовых значений для соответствия минимальным и максимальным значениям.
Устранение дублирования : для обнаружения дублирования требуется алгоритм для определения того, содержат ли данные повторяющиеся представления та же сущность. Обычно данные сортируются по ключу, который сближает повторяющиеся записи для более быстрой идентификации.
Статистические методы : анализ данных с использованием значений среднего, стандартного отклонения, диапазон или кластеризация, эксперт может найти значения, которые являются неожиданными и, следовательно, ошибочными. Хотя исправление таких данных затруднено, поскольку истинное значение неизвестно, его можно решить, установив для значений среднее или другое статистическое значение. Статистические методы также могут использоваться для обработки пропущенных значений, которые могут быть заменены одним или несколькими правдоподобными значениями, которые обычно получают с помощью обширных алгоритмов увеличения данных.

Система

Основная задача этой системы заключается в том, чтобы найти подходящий баланс между исправлением грязных данных и поддержанием данных как можно ближе к исходным данным из исходной производственной системы. Это вызов для архитектора Извлечь, преобразовать, загрузить. Система должна предлагать архитектуру, которая может очищать данные, записывать события качества и измерять / контролировать качество данных в хранилище данных . Хорошим началом является выполнение тщательного анализа профиля данных, который поможет определить требуемую сложность системы очистки данных, а также даст представление о текущем качестве данных в исходной системе (ах).

Инструменты

Существует множество инструментов для очистки данных, таких как Trifacta, OpenRefine, Paxata, Alteryx, Data Ladder, WinPure и другие. Также часто используются библиотеки, такие как Pandas (программное обеспечение) для Python (язык программирования) или Dplyr для R (язык программирования).

Один из примеров очистки данных для распределенных систем в Apache Spark называется Optimus, структура OpenSource для портативных компьютеров или кластеров, позволяющая выполнять предварительную обработку, очистку и исследование. анализ данных. Он включает в себя несколько инструментов обработки данных.

Экраны качества

Часть системы очистки данных - это набор диагностических фильтров, известных как экраны качества. Каждый из них реализует тест в потоке данных, который в случае сбоя регистрирует ошибку в схеме событий ошибок. Экраны качества делятся на три категории:

Экраны столбцов. Тестирование отдельного столбца, например для неожиданных значений, таких как NULL значения; нечисловые значения, которые должны быть числовыми; значения вне допустимого диапазона; и т. д.
Структурные экраны. Они используются для проверки целостности различных отношений между столбцами (обычно внешними / первичными ключами) в одной или разных таблицах. Они также используются для проверки допустимости группы столбцов в соответствии с определением структуры, которому она должна соответствовать.
Экраны бизнес-правил. Самый сложный из трех тестов. Они проверяют, соответствуют ли данные, возможно, в нескольких таблицах, определенным бизнес-правилам. Примером может быть то, что если клиент отмечен как определенный тип клиента, должны соблюдаться бизнес-правила, которые определяют этот тип клиента.

Когда экран качества регистрирует ошибку, он может либо остановить процесс потока данных, отправьте ошибочные данные куда-нибудь, кроме целевой системы, или пометьте данные. Последний вариант считается лучшим решением, потому что первый вариант требует, чтобы кто-то вручную решал проблему каждый раз, когда она возникает, а второй подразумевает, что данные отсутствуют в целевой системе (целостность ), и это часто неясно, что должно происходить с этими данными.

Критика существующих инструментов и процессов

Большинство инструментов очистки данных имеют ограничения в удобстве использования:

Стоимость проекта : затраты обычно исчисляются сотнями тысяч долларов
Время : освоение крупномасштабного программного обеспечения для очистки данных требует много времени
Безопасность : перекрестная проверка требует совместного использования информации, предоставляя доступ приложениям между системами, включая уязвимые устаревшие системы

Схема событий ошибки

Схема события ошибки содержит записи обо всех событиях ошибки, выдаваемых экранами качества. Он состоит из события ошибки , таблицы фактов с внешними ключами для трех таблиц измерений, которые представляют дату (когда), пакетное задание (где) и экран (кто произвел ошибка). Он также содержит информацию о том, когда именно произошла ошибка, и о серьезности ошибки. Кроме того, имеется подробное описание события ошибки Таблица фактов с внешним ключом для основной таблицы, которая содержит подробную информацию о том, в какой таблице, записи и поле произошла ошибка, а также о состоянии ошибки.

См. Также

Ссылки

Источники

Хан, Дж., Камбер, М. Интеллектуальный анализ данных: концепции и методы, Morgan Kaufmann, 2001. ISBN 1-55860-489-8.
Kimball, R., Caserta, J. Инструментарий ETL хранилища данных, Wiley and Sons, 2004. ISBN 0-7645-6757-8.
Мюллер Х., Фрейтаг Дж., Проблемы, методы, и проблемы комплексной очистки данных, Humboldt-Universitat zu Berlin, Германия, 2003.
Рам, Э., Хонг, Х. Очистка данных: проблемы и современные подходы, Университет of Leipzig, Germany, 2000.

Внешние ссылки

Computerworld: Data Scrubbing (10 февраля 2003 г.)
Erhard Rahm, Hong Hai Do: Очистка данных: проблемы и текущие Подходит к
InfoCleanse Дополнительная информация о добавлении данных.