Измерение (хранилище данных)

редактировать
Структура, которая классифицирует факты и меры в хранилище данных Таблица измерений в кубе OLAP со схемой «звезда»

A измерение - это структура, которая классифицирует факты и меры, чтобы пользователи могли отвечать на бизнес-вопросы. Обычно используемые параметры - это люди, продукты, место и время. (Примечание: люди и время иногда не моделируются как измерения.)

В хранилище данных измерения предоставляют структурированную информацию маркировки для неупорядоченных числовых показателей. Измерение - это набор данных, состоящий из отдельных, неперекрывающихся элементов данных. У измерений есть три основных функции: фильтрация, группировка и маркировка.

Эти функции часто называют «нарезать кубиками». Типичный пример хранилища данных включает продажи как меру, а клиента и продукт как измерения. При каждой продаже покупатель покупает товар. Данные можно разрезать, удалив всех клиентов, за исключением изучаемой группы, а затем разделить на части, сгруппировав по продуктам.

Размерный элемент данных аналогичен категориальной переменной в статистике.

Обычно измерения в хранилище данных организованы внутри в одну или несколько иерархий. «Дата» - это обычное измерение с несколькими возможными иерархиями:

  • «Дни (сгруппированы в) Месяцы (сгруппированы в) Годы»,
  • «Дни (сгруппированы в) Недели (которые сгруппированы в) Годы "
  • " Дни (сгруппированы в) Месяцы (которые сгруппированы в) Кварталы (которые сгруппированы в) Годы "
  • и т. д.

Содержание

  • 1 Типы
    • 1.1 Согласованное измерение
    • 1.2 Ненужное измерение
    • 1.3 Вырожденное измерение
    • 1.4 Ролевое измерение
    • 1.5 Измерение аутригера
    • 1.6 Сжатое измерение
    • 1.7 Измерение календарной даты
  • 2 Использование терминов представления ISO
  • 3 Таблица размеров
  • 4 Общие шаблоны
  • 5 См. Также
  • 6 Ссылки

Типы

Согласованный размер

Согласованный размер набор атрибутов данных, на которые физически ссылаются в нескольких таблицах базы данных с использованием одного и того же значения ключа для ссылки на одну и ту же структуру, атрибуты, значения домена, определения и концепции. Согласованное измерение пересекается со многими фактами.

Размеры совпадают, если они либо полностью совпадают (включая ключи), либо одно является идеальным подмножеством другого. Наиболее важно то, что заголовки строк, созданные в двух разных наборах ответов из одного и того же согласованного измерения (измерений), должны иметь возможность идеально совпадать ».

Согласованные измерения - это либо идентичные, либо строгие математические подмножества наиболее детализированного и детального измерения. Таблицы измерений не согласовываются, если атрибуты помечены по-другому или содержат разные значения. Согласованные размеры бывают разных вкусов. На самом базовом уровне согласованные измерения означают одно и то же со всеми возможными таблицами фактов, к которым они присоединены. Таблица измерения даты, связанная с фактами продаж, идентична измерению даты, связанному с фактами инвентаризации.

Измерение нежелательной почты

Измерение нежелательной почты - это удобная группировка флагов и индикаторов с низкой мощностью. При создании абстрактного измерения эти флаги и индикаторы удаляются из таблицы фактов, но при этом помещаются в полезную структуру измерений. Нежелательное измерение - это таблица измерений, состоящая из атрибутов, которые не принадлежат ни таблице фактов, ни какой-либо из существующих таблиц измерений. Эти атрибуты обычно имеют текст или различные флаги, например не общие комментарии или просто индикаторы да / нет или истина / ложь. Эти виды атрибутов обычно остаются, когда все очевидные измерения в бизнес-процессе определены, и поэтому разработчик сталкивается с проблемой, где разместить эти атрибуты, которые не принадлежат другим измерениям.

Одно из решений - создать новое измерение для каждого из оставшихся атрибутов, но из-за их природы может возникнуть необходимость в создании огромного количества новых измерений, что приведет к таблице фактов с очень большим количеством внешние ключи. Разработчик может также решить оставить остальные атрибуты в таблице фактов, но это может сделать длину строки таблицы излишне большой, если, например, атрибуты представляют собой длинную текстовую строку.

Решение этой проблемы состоит в том, чтобы идентифицировать все атрибуты и затем помещать их в одно или несколько ненужных измерений. Одно измерение нежелательной почты может содержать несколько индикаторов истина / ложь или да / нет, которые не коррелируют друг с другом, поэтому было бы удобно преобразовать индикаторы в более описывающий атрибут. Примером может служить индикатор того, прибыла ли посылка: вместо того, чтобы указывать это как «да» или «нет», она будет преобразована в «прибыла» или «ожидает» в измерении нежелательной почты. Разработчик может выбрать создание таблицы измерений так, чтобы в ней содержались все индикаторы, встречающиеся с каждым другим индикатором, чтобы охватить все комбинации. Это устанавливает фиксированный размер для самой таблицы, который будет составлять 2 строки, где x - количество индикаторов. Это решение подходит в ситуациях, когда разработчик ожидает встретить множество различных комбинаций и где возможные комбинации ограничены до приемлемого уровня. В ситуации, когда количество индикаторов велико, что создает очень большую таблицу или когда разработчик ожидает встретить только несколько возможных комбинаций, было бы более целесообразно создавать каждую строку в измерении нежелательной почты по мере появления новых комбинаций.. Чтобы ограничить размер таблиц, несколько измерений нежелательной почты могут быть уместны в других ситуациях в зависимости от корреляции между различными индикаторами.

Нежелательные измерения также подходят для размещения таких атрибутов, как не общие комментарии из таблицы фактов. Такие атрибуты могут состоять из данных из необязательного поля комментария, когда покупатель размещает заказ, и в результате во многих случаях, вероятно, будут пустыми. Следовательно, измерение нежелательной почты должно содержать одну строку, представляющую пробелы в качестве суррогатного ключа, который будет использоваться в таблице фактов для каждой строки, возвращаемой с пустым полем комментария.

Вырожденное измерение

A Вырожденное измерение - это ключ, такой как номер транзакции, номер счета-фактуры, номер билета или номер коносамента, который не имеет атрибутов и, следовательно, не присоединяется к реальной таблице измерений. Вырожденные измерения очень распространены, когда степень детализации таблицы фактов представляет собой отдельный элемент транзакции или строку, поскольку вырожденное измерение представляет уникальный идентификатор родительского элемента. Вырожденные измерения часто играют важную роль в первичном ключе таблицы фактов.

Ролевое измерение

Измерения часто повторно используются для нескольких приложений в одной базе данных. Например, измерение «Дата» может использоваться для «Даты продажи», а также «Даты доставки» или «Даты найма». Это часто называют «ролевым измерением». Это можно реализовать с помощью представления той же таблицы измерений.

Размер аутригера

Обычно таблицы измерений не ссылаются на другие измерения через внешние ключи. Когда это происходит, размер, на который делается ссылка, называется размером выносной опоры. Измерения Outrigger следует рассматривать как анти-шаблон хранилища данных: считается, что лучше использовать некоторые таблицы фактов, которые связывают эти два измерения.

Уменьшенное измерение

Согласованное измерение называется уменьшенным, если оно включает подмножество строк и / или столбцов исходного измерения.

Измерение календарной даты

Для представления дат с точностью до дня можно использовать измерение особого типа. На даты будут ссылаться в таблице фактов как на внешние ключи к измерению даты. Первичный ключ измерения даты может быть суррогатным ключом или числом в формате ГГГГММДД.

Измерение даты может включать в себя другие атрибуты, такие как неделя года или флаги, представляющие рабочие дни, праздники и т. Д. Оно также может включать специальные строки, представляющие: неизвестные даты или еще не определенные даты. Измерение даты должно быть инициализировано всеми необходимыми датами, например датами следующих 10 лет или более, если требуется, или прошедшими датами, если обрабатываются события в прошлом.

Вместо этого время обычно лучше всего представляется как отметка времени в таблице фактов.

Использование терминов представления ISO

При обращении к данным из реестра метаданных, например как ISO / IEC 11179, термины представления, такие как «Индикатор» (логическое значение «истина / ложь»), «Код» (набор неперекрывающихся перечислимых значений) как размеры. Например, при использовании национальной модели обмена информацией (NIEM) имя элемента данных будет «PersonGenderCode», а перечисленные значения могут быть «мужской», «женский» и «неизвестный».

Таблица измерений

В хранилище данных таблица измерений является одним из набора сопутствующих таблиц таблицы фактов.

Таблица фактов содержит (или измеряет) и внешние ключи, которые ссылаются на ключи-кандидаты (обычно первичные ключи ) в таблицах измерений.

В отличие от таблиц фактов, таблицы измерений содержат описательные атрибуты (или поля), которые обычно являются текстовыми полями (или дискретными числами, которые ведут себя как текст). Эти атрибуты предназначены для выполнения двух важнейших задач: ограничения и / или фильтрации запроса и маркировки набора результатов запроса.

Атрибуты измерения должны быть:

  • Подробными (метки, состоящие из полных слов)
  • Описательными
  • Полными (без пропущенных значений)
  • Дискретно оцениваемыми (имеющий только одно значение на строку таблицы измерений)
  • Гарантированное качество (без ошибок написания или невозможных значений)

Строки таблицы измерений однозначно идентифицируются одним ключевым полем. Рекомендуется, чтобы ключевое поле было простым целым числом, поскольку значение ключа не имеет смысла и используется только для объединения полей между таблицами фактов и измерений. В таблицах измерений часто используются первичные ключи, которые также являются суррогатными ключами. Суррогатные ключи часто генерируются автоматически (например, Sybase или SQL Server «столбец идентификации», серийный номер PostgreSQL или Informix, Oracle SEQUENCE или столбец, определенный с помощью AUTO_INCREMENT в MySQL).

Использование суррогатных ключей измерения дает несколько преимуществ, в том числе:

  • Производительность. Обработка соединения становится намного более эффективной за счет использования одного поля (суррогатный ключ )
  • Буферизация из практики управления рабочими ключами. Это предотвращает ситуации, когда удаленные строки данных могут снова появиться, когда их естественные ключи повторно используются или переназначаются после длительного периода. состояния бездействия
  • Отображение для интеграции разнородных источников
  • Обработка неизвестных или неприменимых соединений
  • Отслеживание изменений в значениях атрибутов измерения

Хотя использование суррогатного ключа накладывает бремя на Система ETL, обработка конвейера может быть улучшена, а инструменты ETL имеют встроенную улучшенную обработку суррогатного ключа.

Цель таблицы измерений - создать стандартизированные, согласованные измерения, которые могут быть совместно использованы в корпоративной среде хранилища данных и позволяют объединяться с несколькими таблицами фактов, представляющими различные бизнес-процессы.

Согласованные измерения важны для корпоративной природы систем DW / BI, поскольку они способствуют:

  • согласованности. Каждый факт таблица фильтруется последовательно, поэтому ответы на запросы помечаются последовательно.
  • Интеграция. Запросы можно детализировать по отдельности в разные таблицы фактов процессов, а затем объединить результаты по общим атрибутам измерения.
  • Сокращение времени разработки до выхода на рынок. Общие измерения доступны без их воссоздания.

Со временем атрибуты данной строки в таблице измерений могут измениться. Например, адрес доставки для компании может измениться. Кимбалл называет это явление медленно меняющимся размером. Стратегии работы с такого рода изменениями делятся на три категории:

  • Первый тип: просто перезаписать старое значение (я).
  • Второй тип: добавить новую строку, содержащую новое значение (я), и различать строки с помощью методов Tuple-versioning.
  • Тип три: Добавьте новый атрибут к существующей строке.

Общие шаблоны

Дата и время

Поскольку многие таблицы фактов в хранилище данных представляют собой временные ряды наблюдений, часто требуется одно или несколько измерений даты. Одна из причин наличия измерений даты - разместить знания календаря в хранилище данных, а не жестко запрограммировать их в приложении. Хотя простая дата / временная метка SQL полезна для предоставления точной информации о времени, когда был записан факт, она не может предоставить информацию о праздниках, финансовых периодах и т. Д. SQL-дата / временная метка все же может быть полезна для хранения в таблице фактов, поскольку это позволяет производить точные вычисления.

Наличие даты и времени в одном и том же измерении может легко привести к огромному измерению с миллионами строк. Если требуется большое количество деталей, обычно рекомендуется разделить дату и время на два или более отдельных измерения. Измерение времени с долей секунд в день будет иметь только 86400 строк. Более или менее подробное зерно для размеров даты / времени может быть выбрано в зависимости от потребностей. Например, измерения даты могут быть с точностью до года, квартала, месяца или дня, а измерения времени - с точностью до часов, минут или секунд.

Как показывает опыт, измерение времени суток следует создавать только в том случае, если необходимы иерархические группировки или есть содержательные текстовые описания для периодов времени в течение дня (например, «вечерняя смена» или «первая смена»). »).

Если строки в таблице фактов поступают из нескольких часовых поясов, может быть полезно хранить дату и время как в местном, так и в стандартном времени. Это можно сделать, используя два измерения для каждого необходимого измерения даты / времени - одно для местного времени, а другое для стандартного времени. Сохранение даты / времени как в местном, так и в стандартном времени позволит проанализировать, когда факты создаются в локальных условиях, а также в глобальных. Выбранное стандартное время может быть глобальным стандартным временем (например, UTC ), это может быть местное время штаб-квартиры компании или любой другой часовой пояс, который имеет смысл использовать.

См. Также

Ссылки

  1. ^"Oracle Data Warehousing Guide ", Oracle Corporation, получено 9 июня 2014 г.
  2. ^Определение: Dimension " Управление данными поиска, TechTarget, получено 9 июня 2014 г.
  3. ^Ральф Кимбалл, Марджи Росс, Набор инструментов хранилища данных: Полное руководство по трехмерному моделированию, второе издание, Wiley Computer Publishing, 2002. ISBN 0471-20024-7, страницы 82-87, 394
  4. ^Ральф Кимбалл, Марджи Росс, Набор инструментов хранилища данных: Полное руководство по трехмерному моделированию, второе издание, Wiley Computer Publishing, 2002. ISBN 0471-20024-7, Pages 202, 405
  5. ^Kimball, Ralph, et al. (2008): Инструментарий жизненного цикла хранилища данных, второе издание, Wiley Publishing Inc., Индианаполис, Индиана. Страницы 263-265
  6. ^Ральф Кимбалл, Марджи Росс, Набор инструментов хранилища данных: Полное руководство по трехмерному моделированию, второе издание, Wiley Computer Publishing, 2002. ISBN 0471-20024 -7, Pages 50, 398
  7. ^Ральф Кимбалл; Марджи Росс (2013). 3-е издание набора инструментов хранилища данных. Вайли. п. 50. ISBN 978-1-118-53080-1.
  8. ^Ральф Кимбалл; Марджи Росс (2013). 3-е издание набора инструментов хранилища данных. Вайли. п. 51. ISBN 978-1-118-53080-1.
  9. ^Ральф Кимбалл; Марджи Росс (2013). 3-е издание набора инструментов хранилища данных. Вайли. п. 48. ISBN 978-1-118-53080-1.
  10. ^Ральф Кимбалл, Набор инструментов хранилища данных, второе издание, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5, страницы 253-256

Последняя правка сделана 2021-05-17 06:17:27
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте