Промежуточный (данные)

редактировать

A промежуточная область или посадочная зона - это промежуточная область хранения, используемая для обработки данных в процессе извлечения, преобразования и загрузки (ETL). Промежуточная область данных располагается между источником (ами) данных и целью (ами) данных, которые часто являются хранилищами данных, витринами данных или другими репозиториями данных.

Промежуточные области данных часто носят временный характер, их содержимое стирается перед запуском процесса ETL или сразу после успешного завершения процесса ETL. Однако существуют архитектуры промежуточной области, которые предназначены для хранения данных в течение длительных периодов времени для архивирования или устранения неполадок.

Содержание
  • 1 Реализация
  • 2 Функции
    • 2.1 Консолидация
    • 2.2 Выравнивание
    • 2.3 Минимизация конфликтов
    • 2.4 Независимое планирование / несколько целей
    • 2.5 Обнаружение изменений
    • 2.6 Очистка данные
    • 2.7 Агрегированный предварительный расчет
    • 2.8 Архивирование данных и устранение неисправностей
  • 3 Ссылки
Реализация

Промежуточные области могут быть реализованы в виде таблиц в реляционных базах данных, текстовых плоских файлов ( или XML-файлы), хранящиеся в файловых системах, или запатентованные двоичные файлы, хранящиеся в файловых системах. Архитектуры промежуточной области варьируются по сложности от набора простых реляционных таблиц в целевой базе данных до автономных экземпляров базы данных или файловых систем. Хотя исходные системы и целевые системы, поддерживаемые процессами ETL, часто являются реляционными базами данных, промежуточные области, которые находятся между источниками данных и целевыми объектами, не обязательно должны быть реляционными базами данных.

Функции

Промежуточные области могут быть спроектированы так, чтобы обеспечить множество преимуществ, но основными мотивами их использования являются повышение эффективности процессов ETL, обеспечение целостности данных и поддержка операций по обеспечению качества данных. К функциям промежуточной области относятся следующие:

Консолидация

Одной из основных функций, выполняемых промежуточной областью, является консолидация данных из нескольких исходных систем. При выполнении этой функции промежуточная область действует как большое «ведро», в которое данные из нескольких исходных систем могут быть временно помещены для дальнейшей обработки. Обычно данные в промежуточной области помечаются дополнительными метаданными, указывающими на источник происхождения, и отметками времени, указывающими, когда данные были помещены в промежуточную область.

Согласование

Согласование данных включает стандартизацию справочных данных в нескольких исходных системах и проверку взаимосвязей между записями и элементами данных из разных источников. Выравнивание данных в промежуточной области - это функция, тесно связанная с возможностями управления основными данными и обеспечивающая их поддержку.

Минимизация конфликтов

Промежуточная область и процессы ETL его поддержка часто разрабатывается с целью минимизировать конкуренцию в исходных системах. Копирование требуемых данных из исходных систем в промежуточную область за один раз часто более эффективно, чем получение отдельных записей (или небольших наборов записей) за один раз. Первый метод использует преимущества технической эффективности, такие как технологии потоковой передачи данных, снижение накладных расходов за счет минимизации необходимости разрывать и повторно устанавливать соединения с исходными системами и оптимизации управления блокировкой параллелизма в многопользовательских исходных системах. Копируя исходные данные из исходных систем и ожидая выполнения интенсивной обработки и преобразования в промежуточной области, процесс ETL в значительной степени контролирует проблемы параллелизма во время обработки.

Независимое планирование / несколько целей

Промежуточная область может поддерживать размещение данных, обрабатываемых по независимым расписаниям, и данных, предназначенных для направления на несколько целей. В некоторых случаях данные могут поступать в промежуточную область в разное время для одновременного хранения и обработки. Такая ситуация может возникнуть, например, когда корпоративная обработка данных выполняется в нескольких часовых поясах каждую ночь. В других случаях данные могут быть перенесены в область подготовки для обработки в разное время; или промежуточная область может использоваться для передачи данных в несколько целевых систем. Например, ежедневные рабочие данные могут быть отправлены в хранилище операционных данных (ODS), в то время как те же самые данные могут отправляться в ежемесячной агрегированной форме в хранилище данных.

Обнаружение изменений

Промежуточная область поддерживает эффективные операции обнаружения изменений в целевых системах. Эта функция особенно полезна, когда исходные системы не поддерживают надежные формы обнаружения изменений, такие как принудительная установка временных меток, отслеживание изменений или сбор данных об изменениях (CDC).

Очистка данных

Очистка данных включает идентификацию и удаление (или обновление) недействительных данных из исходных систем. Процесс ETL, использующий промежуточную область, может использоваться для реализации бизнес-логики для выявления и обработки «недействительных» данных. Недействительные данные часто определяются сочетанием бизнес-правил и технических ограничений. Технические ограничения могут быть дополнительно наложены на структуры промежуточной области (например, ограничения таблиц в реляционной базе данных) для обеспечения соблюдения правил достоверности данных.

Предварительный расчет агрегатов

Предварительный расчет агрегатов, сложные вычисления и применение сложных бизнес-логика может выполняться в промежуточной области для поддержки соглашений об уровне обслуживания (SLA) с высокой степенью реагирования для сводной отчетности в целевых системах.

Архивирование данных и устранение неполадок

Архивирование данных может выполняться в или поддерживается, плацдарм. В этом сценарии промежуточная область может использоваться для ведения исторических записей во время процесса загрузки или может использоваться для передачи данных в целевую структуру архива. Кроме того, данные могут храниться в промежуточной области в течение длительных периодов времени для поддержки технического устранения неполадок процесса ETL....

Ссылки
Последняя правка сделана 2021-06-09 07:18:29
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте