Куб данных

редактировать

В контексте компьютерного программирования куб данных (или datacube ) представляет собой многомерный ("nD") массив из ценности. Обычно термин datacube применяется в контекстах, где эти массивы значительно больше, чем основная память хост-компьютера; Примеры включают хранилища данных размером в несколько терабайт / петабайт и временные ряды данных изображений.

Куб данных используется для представления данных (иногда называемых фактами) по некоторой интересующей мере. Например, в OLAP такими показателями могут быть дочерние предприятия компании, продукты, предлагаемые компанией, и время; в этой настройке фактом будет событие продажи, когда конкретный продукт был продан в определенной дочерней компании в определенное время. В временных рядах спутниковых изображений измерениями будут координаты широты и долготы и время; фактом будет пиксель в заданной пространственно-временной координате, принятый спутником (после некоторой обработки, которая здесь не рассматривается). Несмотря на то, что он называется кубом (а приведенные выше примеры для краткости оказываются трехмерными), куб данных обычно является многомерным концептом, который может быть одномерным, двухмерным, трехмерным или более высоким. -размерный. В любом случае каждое измерение представляет собой отдельную меру, тогда как ячейки в кубе представляют интересующие факты. Иногда кубы содержат только несколько значений, а остальные являются пустыми, например: undefined, иногда большинство или все координаты куба содержат значение ячейки. В первом случае такие данные называются разреженными, во втором - плотными, хотя между ними нет четкого разграничения.

Содержание
  • 1 История
  • 2 Стандартизация
  • 3 Внедрение
  • 4 Приложения
    • 4.1 Математика
    • 4.2 Наука и инженерия
    • 4.3 Бизнес-аналитика
  • 5 См. Также
  • 6 Ссылки
История

Многомерные массивы давно известны в языках программирования. Fortran предлагает одномерные массивы и массивы массивов, что позволяет создавать многомерные массивы. APL поддерживает n-D массивы с богатым набором операций. Общим для всего этого является то, что массивы должны помещаться в основную память и доступны только во время работы поддерживающей их программы (например, программы обработки изображений).

Ряд форматов обмена данными поддерживает хранение и передачу данных, подобных кубу данных, часто адаптированных к конкретным доменам приложений. Примеры включают MDX для статистических (в частности, деловых) данных, Формат иерархических данных для общенаучных данных и TIFF для изображений.

В 1992 году Питер Бауман представил управление огромными кубами данных с пользовательскими функциями высокого уровня в сочетании с эффективной архитектурой программного обеспечения. Операции с кубом данных включают извлечение подмножеств, обработку, объединение и общие запросы в духе языков манипулирования данными, например, SQL.

Спустя несколько лет концепция куба данных была применена для описания бизнеса, изменяющегося во времени. данные в виде кубов данных Джима Грея и др., а также Венки Харинараяна, Ананда Раджарамана и Джеффа Уллмана, которые входят в число лучших 500 наиболее цитируемых статей по информатике за 25-летний период.

Примерно в то же время в немецком Gesellschaft für Informatik была создана рабочая группа по многомерным базам данных (Arbeitskreis Multi-Dimensionale Datenbanken)..

Datacube Inc. была компанией по обработке изображений, продававшей аппаратное обеспечение и программное обеспечение приложения для рынка ПК в 1996 году, однако без обращения к информационным кубам как таковым.

Инициатива EarthServer установила требования к сервису куба геоданных.

Стандартизация

В 2018 году язык базы данных ISO SQL был расширен функциональностью куба данных как «SQL - Часть 15: Многомерные массивы (SQL / MDA)».

Служба обработки веб-покрытия - это язык аналитики куба данных, выпущенный Открытым геопространственным консорциумом в 2008 году. В дополнение к обычным операциям с кубом данных, язык знает семантику пространства и времени и поддерживает как регулярные, так и нерегулярные сеточные кубы данных, на основе концепции данных покрытия.

Промышленный стандарт для запросы к кубам бизнес-данных, первоначально разработанные Microsoft, представляют собой многомерные выражения.

Реализация

Многие компьютерные языки высокого уровня обрабатывают кубы данных и другие большие массивы как отдельные объекты, отличные от их содержание. Эти языки, из которых APL, IDL, NumPy, PDL и S-Lang являются примерами, позволяют программисту манипулировать полными клипами фильма и другими данными в массе с помощью простых выражений, полученных из математики линейной алгебры и векторной математики. Некоторые языки (например, PDL) различают список изображений и куб данных, тогда как многие (например, IDL) этого не делают.

Массивные СУБД (системы управления базами данных) предлагают модель данных, которая в целом поддерживает определение, управление, извлечение и манипулирование n-мерными кубами данных. Эта категория баз данных была впервые представлена ​​системой rasdaman с 1994 года.

Приложения

Многомерные массивы могут содержательно представлять пространственно-временные данные датчиков, изображений и данных моделирования, но также и статистические данные, в которых семантика измерений не обязательно имеет пространственный или временной характер. Как правило, любая ось может быть объединена с любой другой в куб данных.

Математика

В математике одномерный массив соответствует вектору, двумерный массив похож на матрицу ; в более общем случае тензор может быть представлен как n-мерный куб данных.

Наука и техника

Для временной последовательности цветных изображений массив обычно четырехмерный, с размерами, представляющими координаты X и Y изображения, время и RGB (или другое цветовое пространство ) цветовую плоскость. Например, инициатива EarthServer объединяет центры обработки данных с разных континентов, предлагая трехмерные временные ряды спутниковых изображений x / y / t и четырехмерные данные о погоде x / y / z / t для поиска и обработки на стороне сервера с помощью Open Консорциум геопространственных данных WCPS стандарт языка запросов геоданных.

Куб данных также используется в области спектроскопии изображений, поскольку изображение со спектральным разрешением представляется в виде трехмерного объема.

Бизнес-аналитика

В онлайн-аналитической обработке (OLAP) кубы данных представляют собой обычную структуру бизнес-данных, подходящую для анализа с разных точек зрения с помощью таких операций, как нарезка, нарезка кубиками, вращение и агрегирование.

См. Также
Ссылки
Последняя правка сделана 2021-05-17 14:09:49
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте