Качество данных

редактировать

Качество данных относится к состоянию качественных или количественных частей Информация. Существует множество определений качества данных, но данные обычно считаются высококачественными, если они «подходят для [своего] предполагаемого использования в операциях, принятии решений и планировании ". Более того, данные считаются высококачественными, если они правильно представляют реальную конструкцию, к которой они относятся. Кроме того, помимо этих определений, по мере увеличения количества источников данных становится важным вопрос внутренней согласованности данных, независимо от пригодности для использования для какой-либо конкретной внешней цели. Мнения людей о качестве данных часто могут расходиться, даже если обсуждают один и тот же набор данных, используемых для одной и той же цели. В этом случае управление данными используется для формирования согласованных определений и стандартов качества данных. В таких случаях может потребоваться очистка данных, включая стандартизацию, для обеспечения качества данных.

Содержание
  • 1 Определения
  • 2 История
  • 3 Обзор
  • 4 Данные обеспечение качества
  • 5 Контроль качества данных
  • 6 Оптимальное использование качества данных
    • 6.1 Безопасность и конфиденциальность данных здравоохранения
  • 7 Качество данных в общественном здравоохранении
  • 8 Качество открытых данных
  • 9 Профессиональные ассоциации
    • 9.1 ECCMA (Ассоциация управления кодами электронной торговли)
  • 10 См. Также
  • 11 Ссылки
  • 12 Дополнительная литература
  • 13 Внешние ссылки
Определения

Определение качества данных в предложении сложна из-за множества контекстов, в которых используются данные, а также из-за различных точек зрения среди конечных пользователей, производителей и хранителей данных.

С точки зрения потребителя качество данных - это:

  • "данные, которые пригодны для использования потребителями данных «
  • данные», отвечающие или превосходящие ожидания потребителей »
  • данные,« удовлетворяющие требованиям предполагаемого использования »

С точки зрения бизнеса ive, качество данных - это:

  • данные, которые «подходят для использования» в предполагаемой операционной деятельности, принятии решений и других ролях »или демонстрируют« соответствие установленным стандартам », так что пригодность к использованию достигнутые "
  • данные, которые" подходят для предполагаемого использования в операциях, принятии решений и планировании "
  • " способность данных удовлетворять заявленным бизнес-требованиям, системным и техническим требованиям предприятия «

С точки зрения стандартов качество данных - это:

  • « степень, в которой набор неотъемлемых характеристик объекта удовлетворяет требованиям »
  • » полезности, точности и правильности данных. для своего приложения »

Возможно, во всех этих случаях« качество данных »представляет собой сравнение фактического состояния конкретного набора данных с желаемым состоянием, причем желаемое состояние обычно называется« пригодным для использования, "в соответствии со спецификацией", "в соответствии с ожиданиями потребителей", "без дефектов" или "в соответствии с требованиями". Эти ожидания, спецификации и требования обычно определяются одним или несколькими людьми или группами, организациями по стандартизации, законами и нормативными актами, бизнес-политиками или политиками разработки программного обеспечения. При дальнейшем углублении эти ожидания, спецификации и требования сформулированы в терминах характеристик или размеров данных, таких как:

  • доступность или доступность
  • точность или правильность
  • сопоставимость
  • полнота или полнота
  • последовательность, последовательность или ясность
  • достоверность, надежность или репутация
  • актуальность, уместность или полезность
  • своевременность или задержка
  • уникальность
  • достоверность или разумность
История

До появления недорогого компьютерного хранилища данных, массивный мэйнфрейм компьютеров использовались для хранения данных об именах и адресах служб доставки. Это было сделано для того, чтобы почта могла быть правильно направлена ​​к месту назначения. В мэйнфреймах использовались бизнес-правила для исправления распространенных орфографических ошибок и опечаток в именах и адресных данных, а также для отслеживания клиентов, которые переехали, умерли, попали в тюрьму, женились, развелись или испытали другие события, изменившие их жизнь. Правительственные агентства начали предоставлять почтовые данные нескольким обслуживающим компаниям для сопоставления данных клиентов с Национальным реестром смены адресов (NCOA). Эта технология сэкономила крупным компаниям миллионы долларов по сравнению с ручным исправлением данных о клиентах. Крупные компании экономили на почтовых расходах, поскольку счета и материалы прямого маркетинга более точно доходили до предполагаемого покупателя. Первоначально продаваемые как услуга, качество данных перешло в рамки корпораций, поскольку стали доступны недорогие и мощные серверные технологии.

Компании, специализирующиеся на маркетинге, часто сосредотачивали свои усилия на обеспечении качества на информации об имени и адресе, но качество данных признано важным свойством всех типов данных. Принципы качества данных могут применяться к данным цепочки поставок, транзакционным данным и почти ко всем другим категориям найденных данных. Например, приведение данных цепочки поставок в соответствие с определенным стандартом имеет ценность для организации за счет: 1) предотвращения затоваривания аналогичных, но немного отличающихся запасов; 2) избежание ложного дефицита; 3) улучшение понимания покупок поставщика для ведения переговоров о скидках за объем; и 4) избежание затрат на логистику при хранении и отправке запчастей в крупной организации.

Для компаний, проводящих значительные исследовательские работы, качество данных может включать разработку протоколов для исследовательских методов, сокращающих измерение ошибка, проверка границ данных, перекрестная таблица, моделирование и обнаружение выбросов, проверка целостности данных и т. д.

Обзор

Существует ряд теоретических основ для понимания качества данных. Теоретико-системный подход, основанный на американском прагматизме, расширяет определение качества данных, чтобы включить в него качество информации, и подчеркивает инклюзивность фундаментальных измерений точности и точности на основе теории науки (Иванов, 1972). Одна структура, получившая название «Данные без дефектов» (Hansen, 1991), адаптирует принципы статистического управления процессом к качеству данных. Другая структура стремится объединить перспективу продукта (соответствие спецификациям) и перспективу обслуживания (удовлетворение ожиданий потребителей) (Kahn et al. 2002). Другая структура основана на семиотике для оценки качества формы, значения и использования данных (Price and Shanks, 2004). Один в высшей степени теоретический подход анализирует онтологическую природу информационных систем для точного определения качества данных (Wand and Wang, 1996).

Значительный объем исследований качества данных включает изучение и описание различных категорий желаемых атрибутов (или измерений) данных. Было идентифицировано около 200 таких терминов, и существует мало согласия по их природе (это концепции, цели или критерии?), Их определениям или критериям (Wang et al., 1993). Программные инженеры могут распознать в этом проблему, аналогичную «способностям ».

Массачусетский технологический институт имеет программу полного управления качеством данных, которую возглавляет профессор Ричард Ван, которая выпускает большое количество публикаций и проводит важную международную конференцию в этой области (International Conference on Information Quality, ICIQ). Эта программа выросла из работы, проделанной Хансеном над фреймворком «Без дефектных данных» (Hansen, 1991).

На практике качество данных является проблемой для профессионалов, работающих с широким спектром информационных систем, от хранилищ данных и бизнес-аналитики до взаимоотношений с клиентами. управление и управление цепочкой поставок. Согласно одному отраслевому исследованию, общая стоимость проблем с качеством данных для экономики США составляет более 600 миллиардов долларов США в год (Eckerson, 2002). Неверные данные, включающие недействительную и устаревшую информацию, могут поступать из разных источников - в результате ввода данных или миграции данных и проектов преобразования.

В 2002 году USPS и PricewaterhouseCoopers выпустили отчет заявляя, что 23,6% всей отправляемой почты США адресуются неправильно.

Одна из причин, по которой контактные данные очень быстро устаревают в средней базе данных - более 45 миллионов американцев меняют свой адрес каждый год.

В Фактически проблема настолько серьезна, что компании начинают создавать команду управления данными, единственная роль которой в корпорации - отвечать за качество данных. В некоторых организациях эта функция управления данными была создана как часть более крупной функции соответствия нормативным требованиям - признание важности качества данных / информации для организаций.

Проблемы с качеством данных возникают не только из-за неверных данных; противоречивые данные также являются проблемой. Устранение систем теневого копирования данных и централизация данных в хранилище - одна из инициатив, которые компания может предпринять для обеспечения согласованности данных.

Предприятия, ученые и исследователи начинают участвовать в сообществах по курированию данных, чтобы улучшить качество своих общих данных.

Рынок в некоторой степени пытается обеспечить гарантии качества данных. Ряд поставщиков создают инструменты для анализа и исправления данных низкого качества на месте, поставщики услуг могут очищать данные на контрактной основе, а консультанты могут давать советы по исправлению процессов или систем, чтобы в первую очередь избежать проблем с качеством данных. Большинство инструментов качества данных предлагают ряд инструментов для улучшения данных, которые могут включать некоторые или все из следующего:

  1. Профилирование данных - первоначальная оценка данных для понимания их текущего состояния, часто включая распределение значений
  2. Стандартизация данных - механизм бизнес-правил, который обеспечивает соответствие данных стандартам
  3. Геокодирование - для данных об именах и адресах. Корректирует данные в соответствии с географическими стандартами США и мира.
  4. Сопоставление или связывание - способ сравнения данных для согласования похожих, но немного разных записей. Сопоставление может использовать «нечеткую логику» для поиска дубликатов в данных. Часто признается, что «Боб» и «Ббо» могут быть одним и тем же человеком. Например, он может управлять «домашним хозяйством» или находить связи между супругами по одному адресу. Наконец, он часто может создать «лучшую в своем классе» запись, используя лучшие компоненты из нескольких источников данных и создав единую суперзапись.
  5. Мониторинг - отслеживание качества данных с течением времени и создание отчетов об изменениях в качество данных. Программное обеспечение также может автоматически корректировать вариации на основе заранее определенных бизнес-правил.
  6. Пакетная обработка и в режиме реального времени. После первоначальной очистки данных (пакетной обработки) компании часто хотят встроить процессы в корпоративные приложения, чтобы сохранить их. чистый.

Есть несколько известных авторов и самозваных экспертов, среди которых Ларри Инглиш, пожалуй, самый популярный гуру. Кроме того, IQ International - Международная ассоциация по качеству информации и данных была основана в 2004 году для того, чтобы стать центром внимания профессионалов и исследователей в этой области.

ISO 8000 - международный стандарт качества данных.

Обеспечение качества данных

Обеспечение качества данных - это процесс профилирования данных для обнаружения несоответствий и другие аномалии в данных, а также выполнение действий очистки данных (например, удаление выбросов, интерполяция отсутствующих данных) для улучшения качества данных.

Эти действия могут выполняться как часть хранилища данных или как часть администрирования базы данных существующей части прикладного программного обеспечения.

Качество данных control

Контроль качества данных - это процесс управления использованием данных для приложения или процесса. Этот процесс выполняется как до, так и после процесса Data Quality Assurance (QA), который состоит из обнаружения несогласованности данных и исправления.

До:

  • Ограничивает входные данные

После процесса QA собирается следующая статистика для управления процессом Контроль качества (QC):

  • Серьезность несоответствия
  • Неполнота
  • Точность
  • Точность
  • Отсутствует / Неизвестно

Процесс контроля качества данных использует информацию из процесса контроля качества, чтобы принять решение об использовании данных для анализа или в приложение или бизнес-процесс. Общий пример: если процесс контроля качества данных обнаруживает, что данные содержат слишком много ошибок или несоответствий, он предотвращает использование этих данных для предполагаемого процесса, который может вызвать сбои. Конкретный пример: предоставление неверных результатов измерений от нескольких датчиков функции автопилота самолета может привести к его аварии. Таким образом, создание процесса контроля качества обеспечивает защиту от использования данных.

Оптимальное использование качества данных

Качество данных (DQ) - это нишевая область, необходимая для целостности управления данными за счет заполнения пробелов в данных вопросы. Это одна из ключевых функций, которые помогают управлять данными, отслеживая данные для поиска исключений, не обнаруженных текущими операциями управления данными. Проверки качества данных могут быть определены на уровне атрибутов, чтобы иметь полный контроль на этапах исправления.

Проверки DQ и бизнес-правила могут легко перекрываться, если организация не уделяет внимания своей области DQ. Бизнес-команды должны тщательно понимать объем DQ, чтобы избежать дублирования. Проверки качества данных являются избыточными, если бизнес-логика охватывает те же функции и выполняет те же цели, что и DQ. Объем DQ организации должен быть определен в стратегии DQ и хорошо реализован. Некоторые проверки качества данных могут быть преобразованы в бизнес-правила после неоднократных случаев исключений в прошлом.

Ниже приведены несколько областей потоков данных, которые могут нуждаться в постоянных проверках DQ:

Полнота и precision Проверки DQ всех данных могут выполняться в точке входа для каждого обязательного атрибута из каждой исходной системы. После первоначального создания транзакции создается несколько значений атрибутов; в таких случаях администрирование этих проверок становится сложным и должно выполняться сразу после того, как определенное событие источника этого атрибута и другие условия основного атрибута транзакции выполнены.

Все данные, имеющие атрибуты, относящиеся к справочным данным в организации, могут быть проверены на соответствие набору четко определенных действительных значений справочных данных для обнаружения новых или несовпадающих значений с помощью проверки достоверности DQ. Результаты могут использоваться для обновления справочных данных, управляемых в рамках управления основными данными (MDM).

Все данные, полученные от третьей стороны для внутренних групп организации, могут пройти проверку точности (DQ) по данным третьей стороны. Эти результаты проверки DQ ценны при администрировании данных, которые прошли несколько переходов после точки ввода этих данных, но до того, как эти данные будут авторизованы или сохранены для корпоративной аналитики.

Все столбцы данных, которые относятся к основным данным, могут быть проверены на предмет их согласованности . Проверка DQ, управляемая данными в точке входа, обнаруживает новые данные для процесса MDM, но проверка DQ, проведенная после точки входа, обнаруживает нарушение (не исключения) согласованности.

По мере преобразования данных фиксируются несколько временных меток и положения этих временных меток, и их можно сравнивать друг с другом и с их свободой действий для проверки их значения, убытков, эксплуатационной значимости в соответствии с определенным SLA (соглашением об уровне обслуживания). Эта проверка своевременности DQ может использоваться для уменьшения скорости затухания значений данных и оптимизации политик временной шкалы перемещения данных.

В организации сложная логика обычно разделяется на более простую логику нескольких процессов. Разумность DQ проверяет такую ​​сложную логику, приводящую к логическому результату в пределах определенного диапазона значений, или статические взаимосвязи (агрегированные бизнес-правила) могут быть проверены для обнаружения сложных, но важных бизнес-процессов и выбросов данных, их дрейфа от ожиданий BAU (бизнес как обычно) и может предоставлять возможные исключения, в конечном итоге приводящие к проблемам с данными. Эта проверка может быть простым общим правилом агрегации, охватываемым большим блоком данных, или сложной логикой для группы атрибутов транзакции, относящейся к основному бизнесу организации. Эта проверка DQ требует высокого уровня деловых знаний и сообразительности. Обнаружение проблем разумности может помочь в изменении политики и стратегии со стороны бизнеса или управления данными, либо того и другого.

Проверки соответствия и проверки целостности не обязательно должны покрывать все потребности бизнеса, это строго по усмотрению архитектуры базы данных.

В перемещении данных есть много мест, где проверки DQ могут не требоваться. Например, проверка DQ на полноту и точность ненулевых столбцов является избыточной для данных, полученных из базы данных. Точно так же данные должны быть проверены на их точность относительно времени, когда данные сшиваются из разрозненных источников. Однако это бизнес-правило, и оно не должно входить в сферу применения DQ.

К сожалению, с точки зрения разработки программного обеспечения, DQ часто рассматривается как нефункциональное требование. И поэтому ключевые проверки / процессы качества данных не учитываются в окончательном программном решении. В сфере здравоохранения носимые технологии или Body Area Networks генерируют большие объемы данных. Уровень детализации, необходимый для обеспечения качества данных, чрезвычайно высок и часто недооценивается. Это также верно для подавляющего большинства приложений mHealth, электронных медицинских записей и других программных решений, связанных со здоровьем. Однако существуют некоторые инструменты с открытым исходным кодом, которые проверяют качество данных. Основная причина этого заключается в дополнительных затратах и ​​добавлении более высокой степени строгости в архитектуре программного обеспечения.

Безопасность и конфиденциальность данных о здоровье

Использование мобильных устройств в здравоохранении или mHealth создает новые проблемы для безопасности и конфиденциальности данных о здоровье, что напрямую влияет на данные качество. Мобильное здравоохранение становится все более важной стратегией оказания медицинских услуг в странах с низким и средним уровнем доходов. Мобильные телефоны и планшеты используются для сбора, составления отчетов и анализа данных почти в реальном времени. Однако эти мобильные устройства обычно используются и для личных целей, что делает их более уязвимыми для угроз безопасности, которые могут привести к утечке данных. Без надлежащих мер безопасности такое личное использование может поставить под угрозу качество, безопасность и конфиденциальность данных о здоровье.

Качество данных в общественном здравоохранении

В последнее время качество данных стало основным направлением программ общественного здравоохранения. лет, особенно по мере роста требований к ответственности. Работа по достижению амбициозных целей, связанных с борьбой с такими заболеваниями, как СПИД, туберкулез и малярия, должна основываться на сильных системах мониторинга и оценки, которые производят качественные данные, связанные с реализацией программ. Эти программы и программные аудиторы все чаще ищут инструменты для стандартизации и оптимизации процесса определения качества данных, проверки качества представленных данных и оценки базовых систем управления данными и отчетности для показателей. Примером может служить инструмент оценки качества данных ВОЗ и MEASURE Evaluation. ВОЗ, Глобальный фонд, ГАВИ и MEASURE Evaluation объединились для выработки согласованного подхода к обеспечению качества данных по различным заболеваниям и программам.

Качество открытых данных

Существует ряд научных работ, посвященных анализу качества данных в открытых источниках, таких как Wikipedia, Wikidata, DBpedia и другие. В случае с Википедией анализ качества может относиться ко всей статье. Моделирование качества там осуществляется с помощью различных методов. Некоторые из них используют алгоритмы интеллектуального анализа данных, включая Random Forest Support Vector Machine и другие. Методы оценки качества данных в Викиданных, DBpedia и других источниках LOD различаются.

Профессиональные ассоциации
IQ International - Международная ассоциация по информации и качеству данных
IQ International - это некоммерческая профессиональная ассоциация, не зависящая от поставщиков, созданная в 2004 году и занимающаяся развитием профессии в области качества информации и данных.

ECCMA (Ассоциация управления кодами электронной торговли)

Управление кодами электронной торговли Ассоциация (ECCMA) - это международная некоммерческая ассоциация, основанная на членах, приверженная делу улучшения качества данных путем внедрения международных стандартов. ECCMA в настоящее время является руководителем проекта по разработке ISO 8000 и ISO 22745, которые являются международными стандартами качества данных и обмена основными данными материалов и услуг, соответственно.

ECCMA предоставляет платформу для сотрудничества между предметными экспертами по качеству данных и управлению данными во всем мире для создания и поддержки глобальных словарей открытых стандартов, которые используются для однозначной маркировки информации. Существование этих словарей этикеток позволяет передавать информацию от одной компьютерной системы к другой без потери смысла.

См. Также
Ссылки
Дополнительная литература
  • Baškarada, S; Корониос, А (2014). «Система критических факторов успеха для управления качеством информации». Управление информационными системами. 31 (4): 1–20. DOI : 10.1080 / 10580530.2014.958023. S2CID 33018618.
  • Бааманн, Катарина, «Аспекты качества данных для обеспечения доходов», Статья
  • Экерсон, В. (2002) «Специальный отчет по хранилищам данных: качество данных и нижняя строка », Статья
  • Иванов К. (1972) « Контроль качества информации: О концепции достоверности информации в банках данных и в информационных системах управления ». Стокгольмский университет и Королевский технологический институт. Докторская диссертация.
  • Хансен, М. (1991) Zero Defect Data, MIT. Магистерская диссертация [1]
  • Кан, Б., Стронг, Д., Ван, Р. (2002) «Контрольные показатели качества информации: производительность продуктов и услуг», Коммуникации ACM, апрель 2002 г., стр. 184 –192. Статья
  • Прайс Р. и Шанкс Г. (2004) Семиотическая структура качества информации, Proc. Международная конференция IFIP по системам поддержки принятия решений (DSS2004): Поддержка принятия решений в неопределенном и сложном мире, Прато. Статья
  • Редман, Т.К. (2008) На основе данных: получение прибыли от нашего самого важного бизнес-актива
  • Ванд, Й. и Ван, Р. (1996) «Закрепление параметров качества данных в онтологических основах, "Сообщения ACM, ноябрь 1996 г., стр. 86–95. Статья
  • Ван, Р., Кон, Х. и Мэдник, С. (1993), Анализ и моделирование требований к качеству данных, Девятая международная конференция по разработке данных, Вена, Австрия. Статья
  • Фурнель Мишель, Accroitre la qualité et la valeur des données de vos clients, éditions Publibook, 2007. ISBN 978-2-7483-3847-8.
  • Даниэль Ф., Касати Ф., Палпанас Т., Чайка О., Каппиелло К. (2008) «Обеспечение принятия лучших решений с помощью отчетов с учетом качества», Международная конференция по качеству информации (ICIQ), Массачусетский технологический институт. Статья
  • Джек Э. Олсон (2003), «Качество данных: измерение точности», Morgan Kaufmann Publishers
  • Woodall P., Oberhofer M., and Borek A. (2014), «Классификация методов оценки и улучшения качества данных». Международный журнал качества информации 3 (4), 298–321. doi: 10.1504 / ijiq.2014.068656.
  • Woodall, P., Borek, A., and Parlikad, A. (2013), «Оценка качества данных: гибридный подход». Информация и управление 50 (7), 369–382.
Внешние ссылки
Последняя правка сделана 2021-05-17 14:10:55
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте