Компьютерный кластер

редактировать

Технические специалисты, работающие над большим кластером Linux в Технологическом университете Хемница, Германия

Sun Microsystems Solaris Cluster, с охлаждением в ряду

A компьютерный кластер - это набор слабо или тесно связанных компьютеров, которые работают вместе, чтобы во многом их можно рассматривать как единую систему. В отличие от компьютеров сетки, в компьютерных кластерах каждый узел настроен на выполнение одной и той же задачи, управляемой и планируемой программным обеспечением.

Компоненты кластера обычно подключаются друг к другу через быстрые локальные сети, при этом на каждом узле (компьютере, используемом в качестве сервера) работает собственный экземпляр операционной системы. В большинстве случаев все узлы используют одно и то же оборудование и одну и ту же операционную систему, хотя в некоторых конфигурациях (например, с использованием ресурсов кластерного приложения с открытым исходным кодом (OSCAR)) на каждом компьютере могут использоваться разные операционные системы., или другое оборудование.

Кластеры обычно развертываются для повышения производительности и доступности по сравнению с одним компьютером, при этом обычно они намного более рентабельны, чем отдельные компьютеры с сопоставимой скоростью или доступностью.

Компьютерные кластеры возникли в результате конвергенции ряда вычислительных тенденций, включая доступность недорогих микропроцессоров, высокоскоростных сетей и программного обеспечения для высокопроизводительных распределенных вычислений. Они имеют широкий диапазон применимости и развертывания, от кластеров малого бизнеса с несколькими узлами до самых быстрых суперкомпьютеров в мире, таких как IBM Sequoia. До появления кластеров использовались единичные отказоустойчивые мэйнфреймы с модульной избыточностью ; но более низкая начальная стоимость кластеров и повышенная скорость сетевой структуры способствовали внедрению кластеров. В отличие от высоконадежных мэйнфреймов кластеры дешевле масштабировать, но они также имеют повышенную сложность в обработке ошибок, поскольку в кластерах режимы ошибок не непрозрачны для выполняющихся программ.

Содержание

1 Основные концепции
2 История
3 Атрибуты кластеров
4 Преимущества
5 Дизайн и конфигурация
6 Совместное использование данных и обмен данными
- 6.1 Совместное использование данных
- 6.2 Передача сообщений и обмен данными
7 Управление кластером
- 7.1 Планирование задач
- 7.2 Управление отказами узлов
8 Разработка и администрирование программного обеспечения
- 8.1 Параллельное программирование
- 8.2 Отладка и мониторинг
9 Реализации
10 Другие подходы
11 См. Также
12 Ссылки
13 Дополнительная литература
14 Внешние ссылки

Основные концепции

Простой самодельный кластер Беовульфа.

Желание получить большую вычислительную мощность и надежность за счет организации количество недорогих готовых коммерческих компьютеров привело к появлению множества архитектур и конфигураций урации.

Подход компьютерной кластеризации обычно (но не всегда) соединяет ряд легко доступных вычислительных узлов (например, персональных компьютеров, используемых в качестве серверов) через быструю локальную сеть. Действия вычислительных узлов управляются «промежуточным программным обеспечением кластеризации», программным уровнем, который располагается поверх узлов и позволяет пользователям рассматривать кластер как в целом один связанный вычислительный блок, например с помощью концепции единого образа системы.

Компьютерная кластеризация опирается на централизованный подход к управлению, который делает узлы доступными как согласованные общие серверы. Он отличается от других подходов, таких как одноранговые или грид-вычисления, которые также используют много узлов, но с гораздо более распределенной природой.

Компьютерный кластер может быть простая двухузловая система, которая просто соединяет два персональных компьютера, или может быть очень быстрым суперкомпьютером. Базовый подход к созданию кластера - это кластер Beowulf, который может быть построен с несколькими персональными компьютерами, чтобы создать экономичную альтернативу традиционным высокопроизводительным вычислениям. Одним из первых проектов, продемонстрировавших жизнеспособность этой концепции, был 133-узловой суперкомпьютер Stone Soupercomputer. Разработчики использовали Linux, инструментарий Parallel Virtual Machine и библиотеку Message Passing Interface для достижения высокой производительности при относительно низкой стоимости.

Хотя кластер может состоять всего из нескольких персональных компьютеров, соединенных простой сетью, архитектура кластера также может использоваться для достижения очень высокого уровня производительности. Полугодовой список 500 самых быстрых суперкомпьютеров организации TOP500 часто включает множество кластеров, например Самой быстрой машиной в мире в 2011 году был компьютер K с распределенной памятью, кластерной архитектурой.

История

A VAX 11/780, c. 1977

Грег Пфистер заявил, что кластеры были изобретены не каким-либо конкретным поставщиком, а клиентами, которые не могли разместить всю свою работу на одном компьютере или нуждались в резервной копии. Пфистер считает, что это время примерно в 1960-х годах. Формальная инженерная основа кластерных вычислений как средства выполнения параллельной работы любого вида, возможно, была изобретена Джином Амдалом из IBM, который в 1967 году опубликовал то, что стало считаться основополагающая статья о параллельной обработке: Закон Амдала.

История ранних компьютерных кластеров более или менее напрямую связана с историей ранних сетей, поскольку одной из основных причин развития сети было соединение вычислительных ресурсов, создавая де-факто компьютерный кластер.

Первой производственной системой, разработанной как кластер, была Burroughs B5700 в середине 1960-х годов. Это позволило подключить до четырех компьютеров, каждый с одним или двумя процессорами, к общей дисковой подсистеме хранения для распределения рабочей нагрузки. В отличие от стандартных многопроцессорных систем, каждый компьютер можно было перезапустить без нарушения общей работы.

Первым коммерческим продуктом слабосвязанной кластеризации была система «Компьютер с подключенными ресурсами» (ARC) от корпорации Datapoint, разработанная в 1977 году и использовавшая ARCnet в качестве интерфейса кластера. Кластеризация как таковая не получила широкого распространения до тех пор, пока Digital Equipment Corporation не выпустила в 1984 году свой продукт VAXcluster для операционной системы VAX / VMS (теперь именуемой OpenVMS). Продукты ARC и VAXcluster поддерживают не только параллельные вычисления, но и совместно используемые файловые системы и периферийные устройства. Идея заключалась в том, чтобы предоставить преимущества параллельной обработки при сохранении надежности и уникальности данных. Двумя другими примечательными ранними коммерческими кластерами были Tandem Himalayan (продукт высокой доступности примерно 1994 г.) и IBM S / 390 Parallel Sysplex (также примерно 1994 г., в основном для использования в бизнесе).

В то же время, когда компьютерные кластеры использовали параллелизм вне компьютера в товарной сети, суперкомпьютеры начали использовать их на одном компьютере. После успеха CDC 6600 в 1964 году, в 1976 был выпущен Cray 1, в котором был введен внутренний параллелизм посредством векторной обработки. В то время как ранние суперкомпьютеры исключали кластеры и полагались на разделяемую память, со временем некоторые из самых быстрых суперкомпьютеров (например, компьютер K ) полагались на кластерные архитектуры.

Атрибуты кластеров

Кластер балансировки нагрузки с двумя серверами и N пользовательскими станциями (Галисийский).

Компьютерные кластеры могут быть настроены для различных целей, начиная от общих бизнес-потребностей, таких как поддержка веб-сервисов, к ресурсоемким научным расчетам. В любом случае кластер может использовать подход высокой доступности. Обратите внимание, что атрибуты, описанные ниже, не являются исключительными, и «компьютерный кластер» может также использовать подход высокой доступности и т. Д.

"Балансировка нагрузки «кластеры - это конфигурации, в которых узлы кластера совместно используют вычислительную рабочую нагрузку для обеспечения лучшего общая производительность. Например, кластер веб-серверов может назначать разные запросы разным узлам, поэтому общее время отклика будет оптимизировано. Однако подходы к балансировке нагрузки могут значительно различаться между приложениями, например, высокопроизводительный кластер, используемый для научных вычислений. будет балансировать нагрузку с помощью различных алгоритмов кластера веб-серверов, который может просто использовать простой метод циклического перебора, назначая каждый новый запрос другому узлу.

Компьютерные кластеры используются для вычислений -интенсивные цели, а не обработка операций, ориентированных на ввод-вывод, таких как веб-службы или базы данных. Например, компьютерный кластер может поддерживать вычислительное моделирование автомобильных аварий или погодных условий. э. Компьютерные кластеры с очень сильной связью разработаны для работы, которая может приближаться к "суперкомпьютерам ".

"Кластеры с высокой доступностью (также известные как отказоустойчивые кластеры или кластеры высокой доступности) повышают доступность кластерного подхода. Они работают за счет наличия избыточных узлов , которые затем используются для предоставления услуг при выходе из строя компонентов системы. Реализации кластера высокой доступности пытаются использовать избыточность компонентов кластера для устранения единых точек отказа. Существуют коммерческие реализации кластеров высокой доступности для многих операционных систем. 181>Проект Linux-HA является одним из наиболее часто используемых бесплатных программ HA-пакетов для операционной системы Linux.

Преимущества

Кластеры в первую очередь разработан с учетом производительности, но установки основаны на многих других факторах. Отказоустойчивость (способность системы продолжать работу с неисправным узлом) обеспечивает масштабируемость, а в ситуациях высокой производительности - низкую частоту процедур обслуживания, консолидации ресурсов (например, RAID ) и центрального крупное управление. Преимущества включают в себя возможность восстановления данных в случае аварии, параллельную обработку данных и высокую производительность обработки.

С точки зрения масштабируемости, кластеры обеспечивают это благодаря своей способности добавлять узлы по горизонтали. Это означает, что к кластеру можно добавить больше компьютеров, чтобы улучшить его производительность, избыточность и отказоустойчивость. Это может быть недорогое решение для более производительного кластера по сравнению с масштабированием одного узла в кластере. Это свойство компьютерных кластеров позволяет выполнять большие вычислительные нагрузки на большем количестве менее производительных компьютеров.

При добавлении нового узла в кластер повышается надежность, поскольку нет необходимости отключать весь кластер. Один узел может быть отключен для обслуживания, а остальная часть кластера берет на себя нагрузку этого отдельного узла.

Если у вас есть большое количество компьютеров, сгруппированных вместе, это позволяет использовать распределенные файловые системы и RAID, которые могут повысить надежность и скорость кластера.

Дизайн и конфигурация

Типичная конфигурация Беовульфа.

Одной из проблем при проектировании кластера является то, насколько сильно могут быть связаны отдельные узлы. Например, одно компьютерное задание может потребовать частого обмена данными между узлами: это означает, что кластер использует выделенную сеть, плотно расположен и, вероятно, имеет однородные узлы. Другая крайность - когда компьютерное задание использует один или несколько узлов и требует небольшого взаимодействия между узлами или не требует его вообще, приближаясь к сеточным вычислениям.

В кластере Беовульфа прикладные программы никогда не видят вычислительные узлы (также называемые подчиненными компьютерами), но взаимодействуют только с «Мастером», который представляет собой конкретный компьютер, выполняющий планирование и управление подчиненными устройствами. В типичной реализации Мастер имеет два сетевых интерфейса, один из которых обменивается данными с частной сетью Беовульфа для ведомых устройств, а другой - с сетью общего назначения организации. Подчиненные компьютеры обычно имеют собственную версию той же операционной системы, а также локальную память и дисковое пространство. Однако частная подчиненная сеть может также иметь большой и совместно используемый файловый сервер, на котором хранятся глобальные постоянные данные, к которым подчиненные при необходимости обращаются.

Настроен 144-узловой кластер DEGIMA специального назначения. для запуска астрофизических симуляций N-тел с использованием параллельного древовидного кода Multiple-Walk, а не для научных вычислений общего назначения.

Из-за увеличения вычислительной мощности каждого поколения игровых консолей появилось новое применение появилась там, где они были перепрофилированы в кластеры высокопроизводительных вычислений (HPC). Некоторыми примерами кластеров игровых консолей являются кластеры Sony PlayStation и кластеры Microsoft Xbox. Другим примером потребительского игрового продукта является рабочая станция Персональный суперкомпьютер Nvidia Tesla, в которой используется несколько процессорных микросхем графического ускорителя. Помимо игровых консолей, вместо них можно использовать и высококачественные видеокарты. Использование видеокарт (или, скорее, их графических процессоров) для вычислений в сетке намного более экономично, чем использование процессоров, несмотря на то, что они менее точны. Однако при использовании значений двойной точности они становятся такими же точными для работы, как и ЦП, и по-прежнему намного дешевле (стоимость покупки).

Компьютерные кластеры исторически работали на отдельных физических компьютерах с той же операционной системой. С появлением виртуализации узлы кластера могут работать на отдельных физических компьютерах с разными операционными системами, которые показаны выше с виртуальным слоем, чтобы они выглядели одинаково. Кластер также может быть виртуализирован в различных конфигурациях по мере обслуживания; пример реализации: Xen в качестве диспетчера виртуализации с Linux-HA.

Обмен данными и обмен данными

Совместное использование данных

A NEC кластер Nehalem

Как кластеры компьютеров появлялись в течение 1980-х, так и суперкомпьютеры. Одним из элементов, которые отличали эти три класса в то время, было то, что первые суперкомпьютеры полагались на разделяемую память. На сегодняшний день кластеры обычно не используют физически разделяемую память, хотя многие архитектуры суперкомпьютеров также отказались от нее.

Однако использование кластерной файловой системы необходимо в современных компьютерных кластерах. Примеры включают IBM General Parallel File System, Microsoft Cluster Shared Volumes или Oracle Cluster File System.

Передача сообщений и связь

Два широко используемых подходы для связи между узлами кластера: MPI (Интерфейс передачи сообщений ) и PVM (Параллельная виртуальная машина ).

PVM был разработан в Национальной лаборатории Ок-Ридж примерно в 1989 году до MPI был доступен. PVM должен быть установлен непосредственно на каждом узле кластера и предоставляет набор программных библиотек, которые изображают узел как «параллельную виртуальную машину». PVM предоставляет среду выполнения для передачи сообщений, управления задачами и ресурсами и устранения ошибок. PVM может использоваться пользовательскими программами, написанными на C, C ++, Fortran и т. д.

MPI появился в начале 1990-х в результате обсуждений между 40 организациями. Первоначальные усилия были поддержаны ARPA и Национальный научный фонд. Вместо того, чтобы начинать заново, разработка MPI d rew на различных функциях, доступных в коммерческих системах того времени. Затем спецификации MPI привели к конкретным реализациям. Реализации MPI обычно используют TCP / IP и соединения сокетов. MPI теперь является широко доступной моделью связи, которая позволяет писать параллельные программы на таких языках, как C, Fortran, Python и т. Д. Таким образом, в отличие от PVM, который обеспечивает конкретную реализацию, MPI - это спецификация, реализованная в таких системах, как MPICH и Open MPI.

Управление кластером

Недорогой и малопотребляющий крошечный кластер Cubieboards с использованием Apache Hadoop на Lubuntu

Одной из проблем при использовании компьютерного кластера является стоимость его администрирования, которая иногда может быть такой же высокой, как стоимость администрирования N независимых машин, если В кластере N узлов. В некоторых случаях это дает преимущество архитектур с общей памятью с меньшими затратами на администрирование. Это также сделало виртуальные машины популярными благодаря простоте администрирования.

Планирование задач

Когда большому многопользовательскому кластеру требуется доступ к очень большим объемам данных, планирование задач становится проблемой. В гетерогенном кластере CPU-GPU со сложной прикладной средой производительность каждого задания зависит от характеристик базового кластера. Следовательно, сопоставление задач с ядрами ЦП и устройствами с графическим процессором создает серьезные проблемы. Это область постоянных исследований; были предложены и изучены алгоритмы, которые объединяют и расширяют MapReduce и Hadoop.

Управление отказами узлов

Когда узел в кластере выходит из строя, стратегии например, «ограждение » может использоваться для поддержания работоспособности остальной системы. Ограждение - это процесс изоляции узла или защиты общих ресурсов, когда узел кажется неисправным. Есть два класса методов ограждения; один отключает сам узел, а другой запрещает доступ к таким ресурсам, как общие диски.

Метод STONITH означает «Shoot The Other Node In The Head», что означает, что подозреваемый узел отключен или выключен. Например, блокировка питания использует контроллер питания для отключения неработающего узла.

Подход с ограничением ресурсов запрещает доступ к ресурсам без отключения питания узла. Это может включать в себя постоянное ограждение резервирования через SCSI3, ограждение оптоволоконного канала для отключения порта оптоволоконного канала или ограждение глобального сетевого блочного устройства (GNBD) для отключения доступа на сервер GNBD.

Разработка и администрирование программного обеспечения

Параллельное программирование

Кластеры с балансировкой нагрузки, такие как веб-серверы, используют кластерные архитектуры для поддержки большого числа пользователей, и обычно каждый запрос пользователя направляется в конкретный узел, достигающий параллелизма задач без взаимодействия нескольких узлов, учитывая, что основная цель системы - обеспечение быстрого доступа пользователей к совместно используемым данным. Однако «компьютерные кластеры», которые выполняют сложные вычисления для небольшого числа пользователей, должны использовать возможности параллельной обработки кластера и разделять «одни и те же вычисления» между несколькими узлами.

Автоматическое распараллеливание программ остается техническая проблема, но модели параллельного программирования могут использоваться для достижения более высокой степени параллелизма посредством одновременного выполнения отдельных частей программы на разных процессорах.

Отладка и мониторинг

Для разработки и отладки параллельных программ в кластере требуются примитивы параллельного языка, а также подходящие инструменты, такие как те, которые обсуждались на форуме High Performance Debugging Forum (HPDF), результатом которого стали спецификации HPD. Затем были разработаны такие инструменты, как TotalView, для отладки параллельных реализаций на компьютерных кластерах, которые используют MPI или PVM для передачи сообщений.

Система Berkeley NOW (Сеть рабочих станций) собирает данные кластера и сохраняет их в базе данных, в то время как система, такая как PARMON, разработанная в Индии, позволяет визуально наблюдать и управлять большие кластеры.

Контрольная точка приложения может использоваться для восстановления заданного состояния системы, когда узел выходит из строя во время длительных многоузловых вычислений. Это важно в больших кластерах, учитывая, что по мере увеличения количества узлов увеличивается вероятность отказа узла при больших вычислительных нагрузках. Контрольная точка может восстановить систему до стабильного состояния, так что обработка может возобновиться без повторного вычисления результатов.

Реализации

Мир GNU / Linux поддерживает различное программное обеспечение кластеров; для кластеризации приложений используются distcc и MPICH. Виртуальный сервер Linux, Linux-HA - кластеры на основе директора, которые позволяют распределять входящие запросы на службы по нескольким узлам кластера. MOSIX, LinuxPMI, Kerrighed, OpenSSI - это полнофункциональные кластеры, интегрированные в ядро , которые обеспечивают автоматическое миграция процесса между однородными узлами. OpenSSI, openMosix и Kerrighed - это реализации образа одной системы.

Microsoft Windows компьютерный кластер Server 2003 на базе платформы Windows Server предоставляет такие компоненты для высокопроизводительных вычислений, как планировщик заданий, библиотека MSMPI и инструменты управления.

gLite - это набор технологий промежуточного программного обеспечения, созданный в рамках проекта Enable Grids for E-sciencE (EGEE).

slurm также используется для планирования и управления некоторыми из крупнейших кластеров суперкомпьютеров (см. Список top500).

Другие подходы

Хотя большинство компьютерных кластеров являются постоянными приспособлениями, были предприняты попытки флешмоб-вычислений для создания недолговечных кластеров для конкретных вычислений. Однако у более масштабных систем добровольных вычислений, таких как системы на основе BOINC, появилось больше последователей.

См. Также

Основные понятия

Распределенные вычисления

Отдельные системы

Компьютерные фермы

Ссылки

Дополнительно чтение

Бейкер, Марк; и другие. (11 января 2001 г.). "Белая книга кластерных вычислений". arXiv : cs / 0004014.
Маркус, Эван; Стерн, Хэл (2000-02-14). Схема обеспечения высокой доступности: проектирование отказоустойчивых распределенных систем. Джон Вили и сыновья. ISBN 978-0-471-35601-1.
Пфистер, Грег (1998). В поисках скоплений. Прентис Холл. ISBN 978-0-13-899709-0.
Буйя, Раджкумар, изд. (1999). Высокопроизводительные кластерные вычисления: архитектуры и системы. 1 . Нью-Джерси, США: Прентис Холл. ISBN 978-0-13-013784-5.
Буйя, Раджкумар, изд. (1999). Высокопроизводительные кластерные вычисления: архитектуры и системы. 2 . Нью-Джерси, США: Прентис Холл. ISBN 978-0-13-013785-2.

Внешние ссылки

Викискладе есть средства массовой информации, относящиеся к Кластерам (вычислениям).

Технический комитет IEEE по Scalable Computing (TCSC)
Технология надежных масштабируемых кластеров, IBM
Tivoli System Automation Wiki
Управление крупномасштабными кластерами в Google с помощью Borg, апрель 2015 г., Абхишек Верма, Луис Педроса, Мадукар Коруполу, Дэвид Оппенгеймер, Эрик Тьюн и Джон Уилкс