Озеро данных

редактировать

Система или репозиторий данных, хранящихся в естественном / исходном формате

A озеро данных - это система или репозиторий данных, хранящихся в естественном / необработанном формате, обычно это объект blobs или файлы. Озеро данных обычно представляет собой единое хранилище данных, включая необработанные копии исходных системных данных, данных датчиков, социальных данных и т. Д., А также преобразованные данные, используемые для таких задач, как отчетность, визуализация, расширенная аналитика и машинное обучение. Озеро данных может включать структурированные данные из реляционных баз данных (строки и столбцы), полуструктурированные данные (CSV, журналы, XML, JSON ), неструктурированные данные (электронные письма, документы, PDF-файлы) и двоичные данные (изображения, аудио, видео). Озеро данных может быть создано «локально» (в центрах обработки данных организации) или «в облаке» (с использованием облачных сервисов от таких поставщиков, как Amazon, Microsoft или Google ).

A болото данных - это испорченное и неуправляемое озеро данных, которое либо недоступно для предполагаемых пользователей, либо представляет небольшую ценность.

Содержание

1 Предпосылки
2 Примеры
3 Критика
4 См. Также
5 Ссылки

Предыстория

Джеймс Диксон, тогдашний технический директор Pentaho, придумал этот термин, чтобы противопоставить его витрине данных, который представляет собой небольшое хранилище интересных атрибутов, полученных из необработанных данных. Продвигая озера данных, он утверждал, что витрины данных имеют несколько неотъемлемых проблем, таких как хранение информации. PricewaterhouseCoopers (PwC) заявила, что озера данных могут «положить конец разрозненным данным». В своем исследовании озер данных они отметили, что предприятия «начинают извлекать и помещать данные для аналитики в единое хранилище на основе Hadoop». Hortonworks, Google, Oracle, Microsoft, Zaloni, Teradata, Impetus Technologies, Cloudera, MongoDB и Amazon теперь у всех есть предложения по озеру данных.

Примеры

Многие компании используют сервисы облачного хранения, такие как Google Cloud Storage и Amazon S3, или распределенную файловую систему, такую как Apache Хадуп. Научный интерес к концепции озер данных постепенно растет. Например, Personal DataLake в Кардиффском университете - это новый тип озера данных, который направлен на управление большими данными отдельных пользователей, предоставляя единую точку сбора, организации и обмена личными данными. Более раннее озеро данных (Hadoop 1.0) имело ограниченные возможности пакетной обработки (MapReduce ) и было единственной связанной с ним парадигмой обработки. Взаимодействие с озером данных означало, что нужно было иметь опыт работы с Java с инструментами уменьшения карты и более высокого уровня, такими как Apache Pig, Apache Spark и Apache Hive (которые по сами были ориентированы на партии).

Критика

В июне 2015 года Дэвид Нидл охарактеризовал «так называемые озера данных» как «один из наиболее спорных способов управления большими данными ». PwC также внимательно отметила в своем исследовании, что не все инициативы по озеру данных успешны. Они цитируют Шона Мартина, технического директора Cambridge Semantics,

. Мы видим, как заказчики создают кладбища больших данных, сбрасывают все в распределенную файловую систему Hadoop (HDFS) и надеются что-то с этим сделать в будущем. Но затем они просто теряют из виду то, что там есть.. Основная проблема заключается не в создании озера данных, а в использовании возможностей, которые оно предоставляет.

Они описывают компании, которые создают успешные озера данных, постепенно созревая свое озеро, как и они сами. выяснить, какие данные и метаданные важны для организации. Еще одна критика состоит в том, что концепция нечеткая и произвольная. Это относится к любому инструменту или практике управления данными, которые не вписываются в традиционную архитектуру хранилища данных. Озеро данных было названо особой технологией. Озеро данных было помечено как резервуар необработанных данных или хаб для разгрузки ETL. Озеро данных было определено как центральный узел для самообслуживания. Концепция озера данных перегружена значениями, что ставит под сомнение полезность этого термина.

Хотя критика озер данных оправдана, во многих случаях они слишком широки и могут применяться к любой технологии усилия в целом и проекты данных в частности. Например, термин «хранилище данных» в настоящее время имеет такое же непрозрачное и изменяющееся определение, что и озеро данных. Также можно сказать, что не все усилия по созданию хранилищ данных были успешными. В ответ на различные критические замечания McKinsey отметила, что озеро данных следует рассматривать как сервисную модель для предоставления бизнес-ценности внутри предприятия, а не как технологический результат.

См. Также

Azure Data Lake

Ссылки