HPCC

редактировать
HPCC
HPCCSystems.png
Разработчик (и) HPCC Systems, LexisNexis Risk Solutions
Первоначальный выпуск15-06- 2011
Стабильный выпуск 7.4.18-1 / 13-09-2019
Репозиторий https://github.com/hpcc-systems
Написано наC ++, ECL
Операционная система Linux
Лицензия Лицензия Apache 2.0
Веб-сайтhpccsystems.com

HPCC (кластер высокопроизводительных вычислений), также известный как DAS (суперкомпьютер для анализа данных), - это системная платформа для интенсивных вычислений с открытым исходным кодом, разработанная LexisNexis Risk Solutions. Платформа HPCC включает архитектуру программного обеспечения, реализованную на массовых вычислительных кластерах, для обеспечения высокопроизводительной параллельной обработки данных для приложений, использующих большие данные. Платформа HPCC включает в себя конфигурации системы для поддержки как параллельной пакетной обработки данных (Thor), так и высокопроизводительных приложений онлайн-запросов с использованием индексированных файлов данных (Roxie). Платформа HPCC также включает ориентированный на данные язык декларативного программирования для параллельной обработки данных под названием ECL.

Публичный выпуск HPCC был объявлен в 2011 году, после десяти лет собственной разработки (согласно в LexisNexis). Это альтернатива Hadoop и другим платформам больших данных.

Содержание
  • 1 Архитектура системы
  • 2 Архитектура программного обеспечения
  • 3 Системы HPCC
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки
Архитектура системы
Рисунок 2. Кластер обработки Thor

Архитектура системы HPCC включает две отдельные кластерные среды обработки Thor и Roxie, каждую из которых можно независимо оптимизировать для целей параллельной обработки данных.

Первая из этих платформ называется Thor, переработка данных, общей целью которой является общая обработка огромных объемов необработанных данных любого типа для любых целей, кроме обычно используется для очистки и гигиены данных, обработки исходных данных ETL (извлечение, преобразование, загрузка ), связывания записей и разрешения сущностей, крупномасштабной специальной комплексной аналитики и создания ключевых данных и индексов для поддержки высокопроизводительных структурированных запросов и приложений хранилищ данных. Название завода по переработке данных Тор является отсылкой к мифическому норвежскому богу грома с большим молотом, символизирующим дробление больших объемов необработанных данных в полезную информацию. Кластер Thor по своим функциям, среде выполнения, файловой системе и возможностям аналогичен платформам Google и Hadoop MapReduce.

На рисунке 2 показано представление физического обрабатывающего кластера Thor, который функционирует как механизм выполнения пакетных заданий для масштабируемых вычислительных приложений с интенсивным использованием данных. Помимо главного и подчиненного узлов Thor, необходимы дополнительные вспомогательные и общие компоненты для реализации полной среды обработки HPCC.

Рисунок 3. Кластер обработки Roxie

Вторая из платформ параллельной обработки данных называется Roxie и функционирует как механизм быстрой доставки данных . Эта платформа разработана как высокопроизводительная онлайн-платформа для структурированных запросов и анализа или хранилище данных, обеспечивающее выполнение требований параллельной обработки доступа к данным для онлайн-приложений через интерфейсы веб-служб, поддерживающих тысячи одновременных запросов и пользователей со временем отклика менее секунды. Roxie использует распределенную индексированную файловую систему для обеспечения параллельной обработки запросов с использованием оптимизированной среды выполнения и файловой системы для высокопроизводительной онлайн-обработки. Кластер Roxie по своим функциям и возможностям аналогичен ElasticSearch и Hadoop с добавленными возможностями HBase и Hive и обеспечивает предсказуемые задержки запросов почти в реальном времени. И Thor, и Roxie кластеры используют язык программирования ECL для реализации приложений, повышения непрерывности и производительности программистов.

На рисунке 3 показан физический обрабатывающий кластер Roxie, который функционирует как механизм выполнения онлайн-запросов для высокопроизводительных приложений запросов и хранилищ данных. Кластер Roxie включает несколько узлов с серверными и рабочими процессами для обработки запросов; дополнительный вспомогательный компонент, называемый сервером ESP, который предоставляет интерфейсы для внешнего клиентского доступа к кластеру; и дополнительные общие компоненты, которые используются совместно с кластером Thor в среде HPCC. Хотя кластер обработки Thor может быть реализован и использоваться без кластера Roxie, среда HPCC, которая включает кластер Roxie, также должна включать кластер Thor. Кластер Thor используется для создания распределенных индексных файлов, используемых кластером Roxie, и для разработки онлайн-запросов, которые будут развернуты с индексными файлами в кластере Roxie.

Рисунок 4. Архитектура программного обеспечения HPCC
Архитектура программного обеспечения

Архитектура программного обеспечения HPCC включает в себя кластеры Thor и Roxie, а также общие компоненты промежуточного программного обеспечения, уровень внешней связи, клиентские интерфейсы которые предоставляют как услуги для конечных пользователей, так и инструменты управления системой, а также вспомогательные компоненты для поддержки мониторинга и облегчения загрузки и хранения данных файловой системы из внешних источников. Обычно среда HPCC включает только кластеры Thor или кластеры Thor и Roxie, хотя Roxie иногда используется для построения собственных индексов. Общая архитектура программного обеспечения HPCC показана на рисунке 4.

Системы HPCC

Системы HPCC (кластер высокопроизводительных вычислений) является частью LexisNexis Risk Solutions и был создан для продвижения и продавать программное обеспечение HPCC. В июне 2011 года он объявил о выпуске программного обеспечения по модели с двумя лицензиями с открытым исходным кодом.

HPCC Systems предлагает как Community Edition, так и Enterprise Edition. Community Edition можно загрузить бесплатно, включает исходный код и распространяется под лицензией Apache License 2.0. Enterprise Edition доступен по платной коммерческой лицензии и включает обучение, поддержку, компенсацию и дополнительные модули. В ноябре 2011 года HPCC Systems объявила о доступности своего кластера Thor Data Refinery на Amazon Web Services. В январе 2012 года HPCC Systems анонсировала распределенные алгоритмы машинного обучения.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-22 09:36:04
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте