Происхождение данных

редактировать

происхождение и события данных

происхождение данных включает происхождение данных, что происходит с это и куда он движется с течением времени. Происхождение данных обеспечивает видимость, значительно упрощая возможность отслеживания ошибок до первопричины в процессе анализа данных.

Он также позволяет воспроизводить определенные части или входные данные потока данных для пошаговой отладки или восстановления потерянного вывода. Системы баз данных используют такую информацию, называемую происхождение данных, для решения аналогичных задач проверки и отладки. Происхождение данных относится к записям о входах, объектах, системах и процессах, которые влияют на интересующие данные, обеспечивая историческую запись данных и их происхождения. Созданные свидетельства поддерживают такие криминалистические действия, как анализ зависимостей данных, обнаружение и восстановление ошибок / компрометации, аудит и анализ соответствия. «Происхождение - это простой тип причины происхождения».

Происхождение данных может быть представлено визуально, чтобы обнаруживать поток / перемещение данных от источника к месту назначения через различные изменения и переходы на его пути в корпоративная среда, как данные преобразуются в процессе, как меняются представление и параметры, и как данные разделяются или сходятся после каждого перехода. Простое представление Data Lineage может быть показано точками и линиями, где точка представляет собой контейнер данных для точек данных, а соединяющие их линии представляют преобразования, которым точка данных претерпевает между контейнерами данных.

Представление в значительной степени зависит от области управления метаданными и интересующей точки отсчета. Линия данных обеспечивает источники данных и промежуточные переходы потока данных от контрольной точки с обратной линией данных, ведет к точкам данных конечного пункта назначения и ее промежуточные потоки данных с прямой линией данных . Эти представления могут быть объединены с сквозной линией для эталонной точки, которая обеспечивает полный контрольный журнал этой интересующей точки данных от источников до ее конечных пунктов назначения. По мере увеличения количества точек данных или скачков сложность такого представления становится непонятной. Таким образом, лучшая особенность представления происхождения данных - это возможность упростить представление путем временного маскирования нежелательных периферийных точек данных. Инструменты с функцией маскирования обеспечивают масштабируемость представления и улучшают анализ, обеспечивая удобство работы как технических, так и бизнес-пользователей. Линия данных также позволяет компаниям отслеживать источники конкретных бизнес-данных с целью отслеживания ошибок, внесения изменений в процессы и внедрения миграции системы, чтобы сэкономить значительное количество времени и ресурсов, тем самым значительно улучшив бизнес-аналитику. эффективность.

Объем линии передачи данных определяет объем метаданных, необходимых для представления ее происхождения данных. Обычно управление данными и управление данными определяет область происхождения данных на основе их нормативных положений, стратегии управления данными предприятия, влияния данных, атрибутов отчетности и критические элементы данных организации.

Происхождение данных обеспечивает контрольный журнал точек данных на самом высоком уровне детализации, но представление происхождения может быть выполнено на различных уровнях масштабирования, чтобы упростить обширную информацию, аналогично аналитической сети карты. Происхождение данных можно визуализировать на различных уровнях в зависимости от детализации представления. На очень высоком уровне происхождение данных указывает, с какими системами данные взаимодействуют, прежде чем они достигнут пункта назначения. По мере увеличения степени детализации она поднимается до уровня точки данных, где может предоставить подробные сведения о точке данных и ее историческом поведении, свойствах атрибутов и тенденциях, а также качество данных данных, прошедших через эту конкретную точку данных. в линии передачи данных.

Управление данными играет ключевую роль в управлении метаданными для руководств, стратегий, политик и реализации. Качество данных и управление основными данными помогает обогатить родословную данных большей коммерческой ценностью. Несмотря на то, что окончательное представление происхождения данных обеспечивается в одном интерфейсе, способ сбора метаданных и их предоставления в происхождение данных графический интерфейс может быть совершенно другим. Таким образом, происхождение данных можно в общих чертах разделить на три категории в зависимости от способа сбора метаданных: происхождение данных, включающее программные пакеты для структурированных данных, языки программирования и большие данные.

Информация о происхождении данных включает технические метаданные, связанные с преобразованием данных. Обширная информация о происхождении данных может включать результаты проверки качества данных, значения справочных данных, модели данных, бизнес-словарь, распорядители данных, информацию об управлении программой и корпоративные информационные системы, связанные с точками данных и преобразованиями. Функция маскирования в визуализации происхождения данных позволяет инструментам включать все улучшения, которые имеют значение для конкретного варианта использования. Чтобы представить разрозненные системы в одном общем виде, может потребоваться «нормализация метаданных» или стандартизация.

Содержание

1 Обоснование
- 1.1 Отладка больших данных
- 1.2 Проблемы при отладке больших данных
  - 1.2.1 Большой масштаб
  - 1.2.2 Неструктурированные данные
  - 1.2.3 Длительное время работы
  - 1.2.4 Сложная платформа
  - 1.2.5 Предлагаемое решение
2 Происхождение данных
3 Захват происхождения
4 Предписывающее происхождение данных
5 Активное против ленивого происхождения
6 Актеров
7 Ассоциации
8 Архитектура
9 Реконструкция потока данных
- 9.1 Таблицы ассоциаций
- 9.2 Граф ассоциаций
  - 9.2.1 Явно указанные ссылки
  - 9.2.2 Логически выведенные ссылки
  - 9.2.3 Неявные ссылки через совместное использование наборов данных
- 9.3 Топологическая сортировка
10 Трассировка и воспроизведение
11 Проблемы
- 11.1 Масштабируемость
- 11.2 Отказоустойчивость
- 11.3 Операторы черного ящика
- 11.4 Эффективная трассировка
- 11.5 Сложное воспроизведение
- 11.6 Обнаружение аномалий
12 См. Также
13 Ссылки

Обоснование

Распределенные системы, такие как Google Map Reduce, Microsoft Dryad, Apache Hadoop (проект с открытым исходным кодом) и Google Prege Я предоставляю такие платформы для предприятий и пользователей. Однако даже с этими системами аналитика больших данных может занять несколько часов, дней или недель просто из-за большого объема данных. Например, алгоритм прогнозирования рейтингов для задачи Netflix Prize выполнялся почти за 20 часов на 50 ядрах, а крупномасштабная задача обработки изображений для оценки географической информации заняла 3 дня с использованием 400 ядер. «Ожидается, что Большой синоптический обзорный телескоп будет генерировать терабайты данных каждую ночь и в конечном итоге хранить более 50 петабайт, в то время как в секторе биоинформатики 12 крупнейших в мире центров секвенирования генома теперь хранят петабайты данных каждый». Специалисту по анализу данных очень сложно отследить неизвестный или непредвиденный результат.

Отладка больших данных

Аналитика больших данных - это процесс изучения больших наборов данных для выявления скрытых закономерностей, неизвестных корреляций, рыночных тенденций, предпочтений клиентов и другой полезной бизнес-информации. Они применяют алгоритмы машинного обучения и т. Д. К данным, которые преобразуют данные. Из-за огромного размера данных в них могут быть неизвестные особенности, возможно, даже выбросы. Специалисту по данным довольно сложно отладить неожиданный результат.

Огромный масштаб и неструктурированный характер данных, сложность этих аналитических конвейеров и длительное время выполнения создают серьезные проблемы с управляемостью и отладкой. Даже одну ошибку в этой аналитике бывает чрезвычайно сложно выявить и устранить. Хотя их можно отладить, повторно запустив всю аналитику через отладчик для пошаговой отладки, это может быть дорогостоящим из-за необходимого количества времени и ресурсов. Аудит и проверка данных являются другими серьезными проблемами из-за растущей простоты доступа к соответствующим источникам данных для использования в экспериментах, обмена данными между научными сообществами и использования сторонних данных на коммерческих предприятиях. Эти проблемы будут только расти и обостряться по мере того, как эти системы и данные будут продолжать расти. Таким образом, более экономичные способы анализа масштабируемых вычислений с интенсивным использованием данных (DISC) имеют решающее значение для их постоянного эффективного использования.

Проблемы при отладке больших данных

Большой масштаб

Согласно исследованию EMC / IDC:

2,8ZB данных были созданы и воспроизведены в 2012 году,
цифровая вселенная будет удваиваться каждые два года в период с настоящего момента до 2020 года, и
в 2020 году на каждого человека будет приходиться примерно 5,2 ТБ данных.

Работа с таким масштабом данных стала очень сложной задачей..

Неструктурированные данные

Неструктурированные данные обычно относятся к информации, которая не находится в традиционной базе данных строка-столбец. Файлы с неструктурированными данными часто содержат текст и мультимедийный контент. Примеры включают сообщения электронной почты, текстовые документы, видео, фотографии, аудиофайлы, презентации, веб-страницы и многие другие виды деловых документов. Обратите внимание, что, хотя файлы такого типа могут иметь внутреннюю структуру, они по-прежнему считаются «неструктурированными», поскольку данные, которые они содержат, не помещаются в базу данных. По оценкам экспертов, от 80 до 90 процентов данных в любой организации неструктурированы. И объем неструктурированных данных на предприятиях растет значительно, часто во много раз быстрее, чем растут структурированные базы данных. «Большие данные могут включать как структурированные, так и неструктурированные данные, но, по оценкам IDC, 90 процентов больших данных являются неструктурированными данными.»

Основная проблема источников неструктурированных данных заключается в том, что их трудно распаковать, понять и подготовить для аналитического использования как бизнес-пользователям, не имеющим технических навыков, так и аналитикам данных. Помимо вопросов структуры, существует огромный объем данных этого типа. Из-за этого современные методы интеллектуального анализа данных часто упускают ценную информацию и делают анализ неструктурированных данных трудоемким и дорогостоящим.

Длительное время работы

В сегодняшней конкурентной бизнес-среде компании должны находить и анализировать соответствующие данные, которые им нужны быстро. Задача состоит в том, чтобы обработать объемы данных и получить доступ к необходимому уровню детализации на высокой скорости. Проблема только возрастает по мере увеличения степени детализации. Одно из возможных решений - оборудование. Некоторые поставщики используют увеличенную память и параллельную обработку для быстрой обработки больших объемов данных. Другой метод - это размещение данных в памяти, но с использованием подхода вычислений сетки, когда для решения проблемы используется множество машин. Оба подхода позволяют организациям исследовать огромные объемы данных. Даже на этом уровне сложного оборудования и программного обеспечения некоторые задачи обработки изображений в большом масштабе занимают от нескольких дней до нескольких недель. Отладка обработки данных чрезвычайно сложна из-за длительного времени выполнения.

Третий подход к расширенным решениям для обнаружения данных сочетает самостоятельную подготовку данных с визуальным обнаружением данных, что позволяет аналитикам одновременно готовить и визуализировать данные в интерактивной среде анализа. от более новых компаний Trifacta, Alteryx и др.

Другой метод отслеживания происхождения данных - это программы для работы с электронными таблицами, такие как Excel, которые действительно предлагают пользователям происхождение на уровне ячейки, или способность видеть, какие клетки зависят от других, но структура трансформации теряется. Точно так же ETL или программное обеспечение сопоставления обеспечивают происхождение на уровне преобразования, но это представление обычно не отображает данные и является слишком грубым, чтобы различать преобразования, которые логически независимы (например, преобразования, которые работают с отдельными столбцами) или зависимые.

Сложная платформа

Большие данные платформы имеют очень сложную структуру. Данные распределяются между несколькими машинами. Обычно задания отображаются на нескольких машинах, а результаты позже объединяются операциями сокращения. Отладка конвейера больших данных становится очень сложной задачей из-за самой природы системы. Специалисту по данным будет непросто выяснить, какие данные машины имеют выбросы и неизвестные особенности, из-за которых конкретный алгоритм дает неожиданные результаты.

Предлагаемое решение

Источник данных или происхождение данных можно использовать для упрощения отладки конвейера больших данных. Это требует сбора данных о преобразованиях данных. В следующем разделе более подробно объясняется происхождение данных.

Источник данных

Источник данных обеспечивает историческую запись данных и их происхождение. Источники данных, которые генерируются сложными преобразованиями, такими как рабочие процессы, имеют большое значение для ученых. Из него можно определить качество данных на основе их предковых данных и производных, отследить источники ошибок, разрешить автоматическое воспроизведение производных для обновления данных и предоставить атрибуцию источников данных. Происхождение также важно для бизнес-домена, где его можно использовать для детализации источника данных в хранилище данных, отслеживания создания интеллектуальной собственности и обеспечения контрольного журнала для нормативных целей.

Использование источника данных предлагается в распределенных системах для отслеживания записей через поток данных,воспроизведения потока данных на подмножестве его исходных входных данных и отладки потоков данных. Для этого необходимо отслеживать набор входных данных для каждого оператора, которые использовались для получения каждого из его выходных данных. Несмотря на то, что существует несколько форм происхождения, таких как происхождение копии и происхождение, необходимая нам информация представляет собой простую форму почему-происхождение или происхождение, как определено Куи и др.

Захват происхождения

Интуитивно понятно, что для оператора T, производящего вывод o, происхождение состоит из триплетов формы {I, T, o}, где I - это набор входных данных для T, используемых для получения o. Захват происхождения для каждого оператора T в потоке данных позволяет пользователям задавать такие вопросы, как «Какие выходные данные были получены при вводе i для оператора T?» и «Какие входы дали результат o в операторе T?» Запрос, который находит входные данные, являющиеся производными для выходных данных, называется запросом обратной трассировки, тогда как запрос, который находит выходные данные, созданные входными данными, называется запросом прямой трассировки. Обратная трассировка полезна для отладки, а прямая трассировка полезна для отслеживания распространения ошибок. Запросы трассировки также составляют основу для воспроизведения исходного потока данных. Однако, чтобы эффективно использовать происхождение в системе DISC, нам необходимо иметь возможность фиксировать происхождение на нескольких уровнях (или гранулярностях) операторов и данных, фиксировать точное происхождение для структур обработки DISC и иметь возможность эффективно отслеживать несколько этапов потока данных.

Система DISC состоит из нескольких уровней операторов и данных, и различные варианты использования происхождения могут определять уровень, на котором необходимо фиксировать происхождение. Происхождение можно зафиксировать на уровне задания, используя файлы и задавая кортежи родословной формы {IF i, M RJob, OF i}, родословную также можно зафиксировать на уровне каждой задачи, используя записи и давая, например, линейные кортежи формы {(k rr, v rr), map, (km, vm)}. Первая форма линии передачи называется крупнозернистой линией, а вторая форма - мелкозернистой линией. Интеграция происхождения на разных уровнях детализации позволяет пользователям задавать такие вопросы, как «Какой файл, прочитанный заданием MapReduce, привел к этой конкретной выходной записи?» и может быть полезен при отладке различных операторов и гранулярностей данных в потоке данных.

Задание Map Reduce, показывающее отношения включения

Чтобы зафиксировать сквозное происхождение в системе DISC, мы используем модель Ibis, которая вводит понятие иерархии включения для операторов и данных. В частности, Ibis предлагает, чтобы оператор мог содержаться в другом, и такая связь между двумя операторами называется вмещением оператора . «Включение оператора подразумевает, что содержащийся (или дочерний) оператор выполняет часть логической операции содержащего (или родительского) оператора». Например, задача MapReduce содержится в задании. Аналогичные отношения включения существуют и для данных, называемые вложением данных. Включение данных подразумевает, что содержащиеся данные являются подмножеством содержащихся данных (надмножеством).

Иерархия сдерживания

Линия прескриптивных данных

Концепция прескриптивной линии передачи данных объединяет логическую модель (сущность) того, как эти данные должны передаваться, с фактической линией происхождения для этого экземпляра.

Происхождение и происхождение данных обычно относится к способу или этапам перехода набора данных к его текущему состоянию. Происхождение данных, а также ко всем копиям или производным. Однако простой анализ корреляций только аудита или журналов для определения происхождения с точки зрения криминалистики является ошибочным для определенных случаев управления данными. Например, без логической модели невозможно с уверенностью определить, был ли маршрут рабочего потока данных правильным или соответствующим.

Только путем объединения логической модели с атомарными криминалистическими событиями можно проверить правильность действий:

Авторизованные копии, объединения или операции CTAS
Сопоставление обработки с системами, в которых выполняется этот процесс на
Ad-Hoc по сравнению с установленными последовательностями обработки

Многие сертифицированные отчеты о соответствии требуют происхождения потока данных, а также данных о конечном состоянии для конкретного экземпляра. В таких ситуациях любое отклонение от предписанного пути должно быть учтено и потенциально исправлено. Это знаменует сдвиг в мышлении от чисто модели ретроспективного анализа к структуре, которая лучше подходит для отслеживания рабочих процессов соответствия.

Активная и ленивая линия передачи

Ленивая коллекция линий обычно захватывает