Суперкомпьютер Blue Gene / P в Аргоннской национальной лаборатории | |
Разработчик | IBM |
---|---|
Тип | Платформа суперкомпьютера |
Дата выхода | BG / L: февраль 1999 г. ( Февраль 1999 г.)BG / P: июнь 2007 г.BG / Q: ноябрь 2011 г. |
Снято с производства | 2015 г. ( 2015) |
Процессор | BG / L: PowerPC 440 BG / P: PowerPC 450 BG / Q: PowerPC A2 |
Предшественник | IBM RS / 6000 SP ; QCDOC |
Преемник | IBM PERCS |
Blue Gene - это проект IBM, направленный на разработку суперкомпьютеров, которые могут достигать рабочих скоростей в диапазоне петафлопс (PFLOPS) при низком энергопотреблении.
Проект создал три поколения суперкомпьютеров, Blue Gene / L, Blue Gene / P и Blue Gene / Q. Во время развертывания системы Blue Gene часто возглавляли рейтинги TOP500 и Green500 самых мощных и наиболее энергоэффективных суперкомпьютеров соответственно. Системы Blue Gene также стабильно занимают первые места в списке Graph500. Проект был награжден Национальной медалью технологий и инноваций 2009 года.
По состоянию на 2015 год IBM, похоже, завершила разработку семейства Blue Gene, хотя публичного объявления не было. Продолжающиеся усилия IBM в области суперкомпьютеров, похоже, сосредоточены вокруг OpenPower, используя ускорители, такие как FPGA и графические процессоры, чтобы бороться с концом закона Мура.
В декабре 1999 года IBM объявила об исследовательской инициативе на сумму 100 миллионов долларов США в рамках пятилетних усилий по созданию компьютера с массовым параллелизмом, который будет применяться для изучения биомолекулярных явлений, таких как сворачивание белков. У проекта были две основные цели: углубить наше понимание механизмов сворачивания белков с помощью крупномасштабного моделирования и изучить новые идеи в области архитектуры машин и программного обеспечения с массовым параллелизмом. Основные области исследования включали: как использовать эту новую платформу для эффективного достижения ее научных целей, как сделать такие машины с массовым параллелизмом более удобными и как достичь целевых показателей производительности при разумных затратах с помощью новых архитектур машин. Первоначальный дизайн Blue Gene был основан на ранней версии архитектуры Cyclops64, разработанной Монти Денно. Первоначальные исследования и разработки проводились в исследовательском центре IBM TJ Watson Research Center под руководством Уильяма Р. Пуллибланка.
В IBM Алан Гара начал работать над расширением архитектуры QCDOC до суперкомпьютера более общего назначения: сеть межсоединений ближайшего соседа 4D была заменена сетью, поддерживающей маршрутизацию сообщений от любого узла к любому другому; была добавлена подсистема параллельного ввода-вывода. Министерство энергетики начало финансировать разработку этой системы, и она стала известна как Blue Gene / L (L означает свет); Разработка исходной системы Blue Gene продолжалась под названием Blue Gene / C (C для Cyclops), а позже - Cyclops64.
В ноябре 2004 года система с 16 стойками, каждая из которых содержит 1024 вычислительных узла, заняла первое место в списке TOP500 с производительностью Linpack 70,72 терафлопс. Таким образом, он обогнал NEC Earth Simulator, который с 2002 года считался самым быстрым компьютером в мире. С 2004 по 2007 год установка Blue Gene / L в LLNL постепенно расширилась до 104 стоек, достигнув 478 TFLOPS Linpack и 596 TFLOPS пикового значения. Установка LLNL BlueGene / L занимала первое место в списке TOP500 в течение 3,5 лет, пока в июне 2008 года ее не обогнала система Roadrunner IBM на базе Cell в Национальной лаборатории Лос-Аламоса, которая стала первой системой, преодолевшей отметку в 1 петафлопс. Система была построена на заводе IBM в Рочестере, штат Миннесота.
Хотя установка LLNL была самой крупной установкой Blue Gene / L, за ней последовало множество более мелких установок. В ноябре 2006 года в списке TOP500 было 27 компьютеров с архитектурой Blue Gene / L. Все эти компьютеры были указаны как имеющие архитектуру eServer Blue Gene Solution. Например, три стойки Blue Gene / L были размещены в суперкомпьютерном центре Сан-Диего.
В то время как TOP500 измеряет производительность в одном тестовом приложении, Linpack, Blue Gene / L также устанавливают рекорды производительности в более широком наборе приложений. Blue Gene / L был первым суперкомпьютером, который работал со скоростью более 100 терафлопс в реальном приложении, а именно в коде трехмерной молекулярной динамики (ddcMD), моделирующем затвердевание (процессы зародышеобразования и роста) расплавленного металла под высоким давлением и температурой. условия. Это достижение было удостоено премии Гордона Белла 2005 года.
В июне 2006 года NNSA и IBM объявили, что Blue Gene / L достигла 207,3 терафлопс в приложении квантовой химии ( Qbox ). На Supercomputing 2006 компания Blue Gene / L получила приз во всех классах наград HPC Challenge. В 2007 году команда из Исследовательского центра IBM в Альмадене и Университета Невады запустила искусственную нейронную сеть, которая почти вдвое сложнее мозга мыши в течение эквивалента секунды (сеть работала на 1/10 нормальной скорости в течение 10 секунд).
Название Blue Gene происходит от того, для чего он изначально был разработан, чтобы помочь биологам понять процессы сворачивания белков и развития генов. «Синий» - это традиционное прозвище, которое IBM использует для многих своих продуктов и самой компании. Первоначальный дизайн Blue Gene был переименован в Blue Gene / C и, в конечном итоге, в Cyclops64. Буква «L» в слове «Blue Gene / L» происходит от «Light», поскольку первоначальное название этого дизайна было «Blue Light». Версия «P» была разработана в виде петафактора. «Q» - это просто буква после «P». Нет Blue Gene / R.
Суперкомпьютер Blue Gene / L был уникален в следующих аспектах:
Архитектура Blue Gene / L была развитием архитектур QCDSP и QCDOC. Каждый узел вычислений или ввода-вывода Blue Gene / L представлял собой одну ASIC с соответствующими микросхемами памяти DRAM. В ASIC интегрированы два встроенных процессора PowerPC 440 с тактовой частотой 700 МГц, каждый из которых имеет модуль с плавающей запятой (FPU) с двойным конвейером и двойной точностью, подсистему кэш - памяти со встроенным контроллером DRAM и логику для поддержки нескольких подсистем связи. Двойные FPU дали каждому узлу Blue Gene / L теоретическую пиковую производительность 5,6 GFLOPS (гигафлопс). Кэш-память двух процессоров не была согласована друг с другом.
Вычислительные узлы были упакованы по два на каждую вычислительную карту, с 16 вычислительными картами плюс до 2 узлов ввода-вывода на каждую плату. На каждый шкаф / стойку приходилось 32 узловых платы. За счет интеграции всех основных подсистем на одном кристалле и использования логики с низким энергопотреблением каждый вычислительный узел или узел ввода-вывода рассеивал низкую мощность (около 17 Вт, включая DRAM). Это позволило агрессивно упаковать до 1024 вычислительных узлов плюс дополнительные узлы ввода-вывода в стандартную 19-дюймовую стойку в разумных пределах по электропитанию и воздушному охлаждению. Показатели производительности, выраженные в количестве FLOPS на ватт, FLOPS на м 2 площади пола и FLOPS на единицу стоимости, позволили достичь очень высокой производительности. При таком большом количестве узлов отказы компонентов были неизбежны. Система смогла электрически изолировать неисправные компоненты с точностью до половины стойки (512 вычислительных узлов), чтобы машина продолжала работать.
Каждый узел Blue Gene / L был подключен к трем параллельным коммуникационным сетям: трехмерной тороидальной сети для одноранговой связи между вычислительными узлами, коллективной сети для коллективной связи (широковещательная передача и сокращение операций) и глобальной сети прерываний для быстрых барьеров.. Узлы ввода-вывода, работающие под управлением операционной системы Linux, обеспечивали связь с хранилищем и внешними хостами через сеть Ethernet. Узлы ввода-вывода обрабатывали операции файловой системы от имени вычислительных узлов. Наконец, отдельная частная сеть Ethernet обеспечивала доступ к любому узлу для настройки, загрузки и диагностики. Чтобы несколько программ могли работать одновременно, система Blue Gene / L может быть разделена на электронно изолированные наборы узлов. Количество узлов в разделе должно быть положительным целым числом, равным степени 2, по крайней мере, 2 5 = 32 узла. Чтобы запустить программу на Blue Gene / L, сначала нужно было зарезервировать раздел компьютера. Затем программа была загружена и запущена на всех узлах в разделе, и никакая другая программа не могла получить доступ к узлам в разделе, пока он использовался. По завершении узлы разделов были освобождены для использования в будущих программах.
Вычислительные узлы Blue Gene / L использовали минимальную операционную систему, поддерживающую однопользовательскую программу. Поддерживалась только часть вызовов POSIX, и только один процесс мог одновременно работать на узле в режиме сопроцессора или по одному процессу на ЦП в виртуальном режиме. Программистам нужно было реализовать зеленые потоки, чтобы имитировать локальный параллелизм. Разработка приложений обычно выполнялась на C, C ++ или Fortran с использованием MPI для связи. Однако некоторые языки сценариев, такие как Ruby и Python, были перенесены на вычислительные узлы.
IBM опубликовала BlueMatter, приложение, разработанное для использования Blue Gene / L, в качестве открытого исходного кода. Это служит для документирования того, как тор и коллективные интерфейсы использовались приложениями, и может служить базой для других, чтобы испытать текущее поколение суперкомпьютеров.
В июне 2007 года IBM представила Blue Gene / P, второе поколение серии Blue Gene суперкомпьютеров и разработан в рамках сотрудничества, которая включала IBM, Ливермора, и Национальная лаборатория Аргон «s Leadership Computing Facility.
Дизайн Blue Gene / P - это технологическая эволюция Blue Gene / L. Каждый вычислительный чип Blue Gene / P содержит четыре процессорных ядра PowerPC 450, работающих на частоте 850 МГц. Ядра согласованы с кешем, и чип может работать как 4-процессорный симметричный мультипроцессор (SMP). Подсистема памяти на кристалле состоит из небольших частных кэшей L2, центрального общего кэша L3 объемом 8 МБ и двух контроллеров памяти DDR2. Чип также интегрирует логику межузловой связи, используя ту же сетевую топологию, что и Blue Gene / L, но с более чем удвоенной пропускной способностью. Вычислительная карта содержит чип Blue Gene / P с 2 или 4 ГБ DRAM, составляющий «вычислительный узел». Пиковая производительность одного вычислительного узла составляет 13,6 GFLOPS. 32 Вычислительные карты вставлены в узловую плату с воздушным охлаждением. Стойка содержит 32 узла платы (таким образом, узлы 1 024 4096 процессорных ядер). Благодаря использованию множества небольших, маломощных, плотно упакованных чипов, Blue Gene / P превзошел энергоэффективность других суперкомпьютеров его поколения, и при 371 MFLOPS / Вт инсталляции Blue Gene / P заняли первое место в списке Green500 в рейтинге или около него. 2007-2008 гг.
Ниже приводится неполный список установок Blue Gene / P. По состоянию на ноябрь 2009 года список TOP500 содержал 15 установок Blue Gene / P с двумя стойками (2048 узлов, 8192 процессорных ядра, 23,86 терафлопс Linpack ) и более.
Третий суперкомпьютер в серии Blue Gene, Blue Gene / Q, имеет пиковую производительность 20 Петафлопс, достигнув производительности в тестах LINPACK 17 Петафлопс. Blue Gene / Q продолжает расширять и улучшать архитектуры Blue Gene / L и / P.
Чип Blue Gene / Q Compute - это 18-ядерный чип. В 64-разрядные А2 процессорных ядер являются 4-х одновременно многопоточным, и работает на частоте 1,6 ГГц. Каждое ядро процессора имеет модуль SIMD Quad-vector с плавающей запятой двойной точности (IBM QPX). 16 ядер процессора используются для вычислений, а 17-е ядро - для вспомогательных функций операционной системы, таких как прерывания, асинхронный ввод-вывод, синхронизация MPI и RAS. 18-е ядро используется в качестве резервной копии для увеличения производительности. Выключенная активная зона отключена в рабочем состоянии. Ядра процессора связаны перекрестным переключателем с кэш-памятью второго уровня eDRAM объемом 32 МБ, работающей на половинной скорости ядра. Кэш L2 является многоверсионным, поддерживает транзакционную память и спекулятивное выполнение, а также имеет аппаратную поддержку атомарных операций. Промахи кэша L2 обрабатываются двумя встроенными контроллерами памяти DDR3, работающими на частоте 1,33 ГГц. Микросхема также объединяет логику для межкристаллической связи в конфигурации 5D torus со связями от кристалла к кристаллу 2 ГБ / с. Чип Blue Gene / Q изготовлен по технологии IBM SOI для меди с длиной волны 45 нм. Он обеспечивает максимальную производительность 204,8 GFLOPS на частоте 1,6 ГГц и потребляет около 55 Вт. Чип имеет размеры 19 × 19 мм (359,5 мм²) и содержит 1,47 миллиарда транзисторов. Чип устанавливается на вычислительную карту вместе с памятью DRAM DDR3 объемом 16 ГБ (т. Е. По 1 ГБ на каждое ядро процессора пользователя).
Вычислительный блок Q32 содержит 32 вычислительных карты, каждая из которых имеет водяное охлаждение. «Промежуточная панель» (ящик) содержит 16 вычислительных блоков Q32, в общей сложности 512 вычислительных узлов, электрически связанных между собой в конфигурации тора 5D (4x4x4x4x2). За пределами уровня промежуточной платы все соединения являются оптическими. Стойки имеют две промежуточные панели, то есть 32 вычислительных блока, всего 1024 вычислительных узла, 16 384 пользовательских ядра и 16 ТБ ОЗУ.
Отдельные блоки ввода-вывода, размещаемые в верхней части стойки или в отдельной стойке, имеют воздушное охлаждение и содержат 8 вычислительных карт и 8 слотов расширения PCIe для сетей InfiniBand или 10 Gigabit Ethernet.
На момент анонса системы Blue Gene / Q в ноябре 2011 года, первоначальная система Blue Gene / Q с 4 стойками (4096 узлов, 65536 ядер пользовательского процессора) достигла 17-го места в списке TOP500 с 677,1 терафлопс Linpack, превзойдя исходный показатель 2007 года. Установка BlueGene / L на 104 стойки описана выше. Та же система с 4 стойками заняла первое место в списке Graph500 с показателем более 250 GTEPS (гигабайт пройденных краев в секунду ). Системы Blue Gene / Q также возглавили список самых энергоэффективных суперкомпьютеров Green500 со скоростью до 2,1 Гфлопс / Вт.
В июне 2012 года установки Blue Gene / Q заняли первые места во всех трех списках: TOP500, Graph500 и Green500.
Ниже приводится неполный список установок Blue Gene / Q. По состоянию на июнь 2012 года список TOP500 содержал 20 установок Blue Gene / Q размером 1/2 стойки (512 узлов, 8192 процессорных ядра, 86,35 терафлопс Linpack) и более. При энергоэффективности (не зависящей от размера) около 2,1 ГФЛОПС / Вт все эти системы также заняли первое место в списке Green 500 за июнь 2012 года.
Рекордные научные приложения были запущены на BG / Q, первым из которых достигнута стабильная производительность в 10 петафлопс. Структура космологического моделирования HACC достигла почти 14 петафлопс при тестовом прогоне 3,6 триллиона частиц, в то время как код Cardioid, который моделирует электрофизиологию человеческого сердца, достиг почти 12 петафлопс при моделировании почти в реальном времени, оба на Sequoia. Решатель полностью сжимаемого потока также достиг 14,4 PFLOP / s (первоначально 11 PFLOP / s) на Sequoia, что составляет 72% от номинальной пиковой производительности машины.