NEC SX-Aurora TSUBASA - это векторный процессор семейства архитектуры NEC SX. В отличие от предыдущих суперкомпьютеров SX, SX-Aurora TSUBASA предоставляется в виде карты PCIe, которую NEC называет «векторным движком» (VE). Восемь карт VE могут быть вставлены в векторный хост (VH), который обычно представляет собой сервер x86-64 под управлением операционной системы Linux. Продукт был анонсирован в пресс-релизе от 25 октября 2017 года, и NEC начала его продажи в феврале 2018 года. Продукт заменяет SX-ACE.
SX-Aurora TSUBASA является преемником серии NEC SX и SUPER-UX, которые представляют собой векторные компьютерные системы, на которых установлен суперкомпьютер Earth Simulator основано. Его оборудование состоит из хостов Linux x86 с векторными механизмами (VE), подключенными через соединение PCI Express (PCIe).
Высокая пропускная способность памяти (0,75–1,2 ТБ / с), исходит из восьми ядер и шести модулей памяти HBM2 на кремниевом переходнике, реализованном в форм-факторе карты PCIe. Функциональные возможности операционной системы для VE выгружаются на VH и обрабатываются в основном демонами пользовательского пространства, работающими с VEOS.
В зависимости от тактовой частоты (1,4 или 1,6 ГГц) каждый VE CPU имеет восемь ядер и максимальная производительность 2,15 или 2,45 TFLOPS с двойной точностью. В процессоре впервые в мире реализовано шесть модулей HBM2 на промежуточном устройстве Silicon с общим объемом памяти 24 или 48 ГБ с высокой пропускной способностью. Он интегрирован в форм-фактор стандартной карты PCIe полной длины, полной высоты и двойной ширины, которая размещается на сервере x86_64, Vector Host (VH). На сервере можно разместить до восьми виртуальных машин, виртуальные машины кластеров могут масштабироваться до произвольного количества узлов.
Vector Engine версии 2
SKU | 20A | 20B |
---|---|---|
Тактовая частота (в ГГц) | 1,6 | 1,6 |
Количество ядер | 10 | 8 |
Пиковая производительность ядра (двойная точность GFLOPS) | 307 | 307 |
Пиковая производительность ядра (GFLOPS одинарной точности) | 614 | 614 |
Пиковая производительность ЦП (двойная точность TFLOPS) | 3,07 | 2,45 |
Пиковая производительность процессора (TFLOPS одинарной точности) | 6,14 | 4,91 |
Пропускная способность памяти (ТБ / с) | 1,53 | 1,53 |
Объем памяти (ГБ) | 48 | 48 |
Vector Engine версии 1
Версия 1.0 Vector Двигатель был произведен по процессу 16 нм FinFET (из TSMC ) и выпущен в трех SKU (последующие версии добавляют E в конце):
SKU | 10A | 10B | 10C | 10AE | 10BE | 10CE |
---|---|---|---|---|---|---|
Тактовая частота (в ГГц) | 1,6 | 1,4 | 1,4 | 1,584 | 1,408 | 1,400 |
Количество ядер | 8 | 8 | 8 | 8 | 8 | 8 |
Пиковая производительность ядра (GFLOPS двойной точности) | 307,2 | 268,8 | 268,8 | 304 | 270 | 268 |
Пиковая производительность ядра (GFLOPS с одинарной точностью) | 537 | 608 | 540 | 537 | ||
Пиковая производительность ЦП (TFLOPS с двойной точностью) | 2,45 | 2,15 | 2,15 | 2,43 | 2,16 | 2,15 |
Пиковая производительность ЦП (одинарная точность TFLOPS) | 4,9 | 4.3 | 4.3 | 4.86 | 4.32 | 4.30 |
Пропускная способность памяти (ТБ / с) | 1.2 | 1,2 | 0,75 | 1,35 | 1,35 | 1,00 |
Объем памяти (ГБ) | 48 | 48 | 24 | 48 | 48 | 24 |
Каждое из восьми ядер SX-Aurora имеет 64 логических векторных регистра. Они имеют длину 256 x 64 бита, реализованную как смесь конвейерных и 32-кратных параллельных модулей SIMD. Регистры подключены к трем модулям умножения и сложения с плавающей запятой FMA, которые могут работать параллельно, а также к двум арифметическим логическим модулям ALU, обрабатывающим операции с фиксированной запятой, и конвейеру деления и извлечения квадратного корня. Учитывая только блоки FMA и их 32-кратный параллелизм SIMD, векторное ядро способно выполнять 192 операции двойной точности за цикл. В «упакованных» векторных операциях, когда два значения одинарной точности загружаются в пространство одного слота двойной точности в векторных регистрах, векторный блок выполняет в два раза больше операций за такт по сравнению с двойной точностью.
Скалярный процессор (SPU) обрабатывает не-векторные инструкции на каждом из ядер.
Память процессора SX-Aurora TSUBASA состоит из шести модулей памяти с высокой пропускной способностью HBM2 второго поколения, реализованных в том же корпусе, что и ЦП с с помощью технологии Chip-on-Wafer-on-Substrate. В зависимости от модели процессора, модули HBM2 представляют собой трехмерные модули с 4 или 8 матрицами емкостью 4 или 8 ГБ каждый. Таким образом, процессоры SX-Aurora имеют 24 ГБ или 48 ГБ памяти HBM2. Модели, реализованные с использованием больших модулей HBM2, имеют пропускную способность памяти 1,2 ТБ / с.
Ядра векторного механизма совместно используют 16 МБ кэша последнего уровня (LLC), кэша обратной записи, напрямую подключенного к векторные регистры и кэш L2 блока SPU. Размер строки кэша LLC составляет 128 байт. Приоритетом хранения данных в LLC можно до некоторой степени управлять с помощью программного обеспечения, что позволяет программисту указать, какие из переменных или массивов должны храниться в кеше, функция, сравнимая с функцией Advanced Data Buffer (ADB) в NEC SX-ACE.
NEC в настоящее время продает векторный движок SX-Aurora TSUBASA, интегрированный в четыре платформы:
Внутри узла VH виртуальные машины могут связываться друг с другом через PCIe. В больших параллельных системах, построенных с помощью SX-Aurora, используется Infiniband в настройке PeerDirect в качестве межсоединения.
NEC также использовала для продажи векторного движка SX-Aurora TSUBASA, интегрированного в пять платформ:
. Все типы имеют исключительно воздушное охлаждение, за исключением серии A500, в которой также используется водяное охлаждение.
Операционная система векторного движка (VE) называется «VEOS», и она полностью выгружена на хост-систему, векторный хост (VH). VEOS состоит из модулей ядра и демонов пользовательского пространства, которые:
VEOS поддерживает многозадачность на VE, и почти все системные вызовы Linux поддерживаются в VE libc. Выгрузка служб операционной системы на виртуальный виртуальный сервер смещает джиттер ОС с виртуального компьютера за счет увеличения задержек. Все пакеты, относящиеся к операционной системе VE, находятся под лицензией Стандартной общественной лицензии GNU и были опубликованы на github.com / veos-sxarr-nec.
Позже, похоже, NEC отказались от VEOS в пользу Red Hat Enterprise Linux или CentOS.
NEC предоставляет разработчикам и клиентам комплект средств разработки программного обеспечения. Он содержит запатентованные продукты и должен быть приобретен у NEC. SDK содержит:
NEC MPI также является частной реализацией и соответствует стандартной спецификации MPI-3.1.
Можно создавать гибридные программы, использующие VE в качестве ускорителя для определенных функций ядра хоста с помощью C-API разгрузки VE. В некоторой степени разгрузка VE сравнима с OpenCL и CUDA, но обеспечивает более простой API и позволяет разрабатывать ядра на обычном C, C ++ или Fortran и использовать практически любой системный вызов на VE. Привязки Python к VEO доступны на github.com / SX-Aurora / py-veo.
.