NEC SX-Aurora TSUBASA

редактировать
Сервер NEC SX-Aurora TSUBASA A300-8 с восемью векторными двигателями, представленный на стенде NEC на SC'17 в Denver

NEC SX-Aurora TSUBASA - это векторный процессор семейства архитектуры NEC SX. В отличие от предыдущих суперкомпьютеров SX, SX-Aurora TSUBASA предоставляется в виде карты PCIe, которую NEC называет «векторным движком» (VE). Восемь карт VE могут быть вставлены в векторный хост (VH), который обычно представляет собой сервер x86-64 под управлением операционной системы Linux. Продукт был анонсирован в пресс-релизе от 25 октября 2017 года, и NEC начала его продажи в феврале 2018 года. Продукт заменяет SX-ACE.

Содержание
  • 1 Аппаратное обеспечение
    • 1.1 Выпуски продукта
    • 1.2 Функциональные блоки
    • 1.3 Память и кэш-память
    • 1.4 Платформы
  • 2 Программное обеспечение
    • 2.1 Операционная система
    • 2.2 Разработка программного обеспечения
  • 3 Справочные материалы
  • 4 Внешние ссылки
Аппаратное обеспечение

SX-Aurora TSUBASA является преемником серии NEC SX и SUPER-UX, которые представляют собой векторные компьютерные системы, на которых установлен суперкомпьютер Earth Simulator основано. Его оборудование состоит из хостов Linux x86 с векторными механизмами (VE), подключенными через соединение PCI Express (PCIe).

Высокая пропускная способность памяти (0,75–1,2 ТБ / с), исходит из восьми ядер и шести модулей памяти HBM2 на кремниевом переходнике, реализованном в форм-факторе карты PCIe. Функциональные возможности операционной системы для VE выгружаются на VH и обрабатываются в основном демонами пользовательского пространства, работающими с VEOS.

В зависимости от тактовой частоты (1,4 или 1,6 ГГц) каждый VE CPU имеет восемь ядер и максимальная производительность 2,15 или 2,45 TFLOPS с двойной точностью. В процессоре впервые в мире реализовано шесть модулей HBM2 на промежуточном устройстве Silicon с общим объемом памяти 24 или 48 ГБ с высокой пропускной способностью. Он интегрирован в форм-фактор стандартной карты PCIe полной длины, полной высоты и двойной ширины, которая размещается на сервере x86_64, Vector Host (VH). На сервере можно разместить до восьми виртуальных машин, виртуальные машины кластеров могут масштабироваться до произвольного количества узлов.

Выпуски продукта

Vector Engine версии 2

SKU20A20B
Тактовая частота (в ГГц)1,61,6
Количество ядер108
Пиковая производительность ядра

(двойная точность GFLOPS)

307307
Пиковая производительность ядра

(GFLOPS одинарной точности)

614614
Пиковая производительность ЦП

(двойная точность TFLOPS)

3,072,45
Пиковая производительность процессора

(TFLOPS одинарной точности)

6,144,91
Пропускная способность памяти (ТБ / с)1,531,53
Объем памяти (ГБ)4848

Vector Engine версии 1

Версия 1.0 Vector Двигатель был произведен по процессу 16 нм FinFET (из TSMC ) и выпущен в трех SKU (последующие версии добавляют E в конце):

SKU10A10B10C10AE10BE10CE
Тактовая частота (в ГГц)1,61,41,41,5841,4081,400
Количество ядер888888
Пиковая производительность ядра

(GFLOPS двойной точности)

307,2268,8268,8304270268
Пиковая производительность ядра

(GFLOPS с одинарной точностью)

537608540537
Пиковая производительность ЦП

(TFLOPS с двойной точностью)

2,452,152,152,432,162,15
Пиковая производительность ЦП

(одинарная точность TFLOPS)

4,94.34.34.864.324.30
Пропускная способность памяти (ТБ / с)1.21,20,751,351,351,00
Объем памяти (ГБ)484824484824

Функциональные блоки

Каждое из восьми ядер SX-Aurora имеет 64 логических векторных регистра. Они имеют длину 256 x 64 бита, реализованную как смесь конвейерных и 32-кратных параллельных модулей SIMD. Регистры подключены к трем модулям умножения и сложения с плавающей запятой FMA, которые могут работать параллельно, а также к двум арифметическим логическим модулям ALU, обрабатывающим операции с фиксированной запятой, и конвейеру деления и извлечения квадратного корня. Учитывая только блоки FMA и их 32-кратный параллелизм SIMD, векторное ядро ​​способно выполнять 192 операции двойной точности за цикл. В «упакованных» векторных операциях, когда два значения одинарной точности загружаются в пространство одного слота двойной точности в векторных регистрах, векторный блок выполняет в два раза больше операций за такт по сравнению с двойной точностью.

Скалярный процессор (SPU) обрабатывает не-векторные инструкции на каждом из ядер.

Память и кеши

Память процессора SX-Aurora TSUBASA состоит из шести модулей памяти с высокой пропускной способностью HBM2 второго поколения, реализованных в том же корпусе, что и ЦП с с помощью технологии Chip-on-Wafer-on-Substrate. В зависимости от модели процессора, модули HBM2 представляют собой трехмерные модули с 4 или 8 матрицами емкостью 4 или 8 ГБ каждый. Таким образом, процессоры SX-Aurora имеют 24 ГБ или 48 ГБ памяти HBM2. Модели, реализованные с использованием больших модулей HBM2, имеют пропускную способность памяти 1,2 ТБ / с.

Ядра векторного механизма совместно используют 16 МБ кэша последнего уровня (LLC), кэша обратной записи, напрямую подключенного к векторные регистры и кэш L2 блока SPU. Размер строки кэша LLC составляет 128 байт. Приоритетом хранения данных в LLC можно до некоторой степени управлять с помощью программного обеспечения, что позволяет программисту указать, какие из переменных или массивов должны храниться в кеше, функция, сравнимая с функцией Advanced Data Buffer (ADB) в NEC SX-ACE.

Платформы

NEC в настоящее время продает векторный движок SX-Aurora TSUBASA, интегрированный в четыре платформы:

  • A111-1: ПК в корпусе Tower с одной картой VE типа 10B
  • A101-1: ПК в корпусе Tower с одной картой VE типа 10CE
  • A311-4: масштабируемый сервер Xeon с двумя разъемами 1U, 19 дюймов, монтируемый в стойку, оснащенный до четырех карт VE типа BE
  • A311-8: монтируемый в 19-дюймовую стойку Xeon-сервер с двумя разъемами 4U и до восьми плат VE типа BE
  • A511-64: 19-дюймовая стойка, оснащенная 64 VE типа АЕ. Это единственная конфигурация, которая явно продается как суперкомпьютер.

Внутри узла VH виртуальные машины могут связываться друг с другом через PCIe. В больших параллельных системах, построенных с помощью SX-Aurora, используется Infiniband в настройке PeerDirect в качестве межсоединения.

NEC также использовала для продажи векторного движка SX-Aurora TSUBASA, интегрированного в пять платформ:

  • A100-1: ПК в корпусе Tower с одной картой VE типа 10C.
  • A300-2 : монтируемый в стойку сервер Skylake высотой 1U, оснащенный до двух плат VE типа 10B или 10C.
  • A300-4: монтируемый в стойку сервер Skylake высотой 1U с двумя разъемами, оснащенный до четырех плат VE тип 10B или 10C.
  • A300-8: монтируемый в стойку сервер Skylake высотой 4U с двумя разъемами и до восьми плат VE типа 10B или 10C.
  • A500-64: стойка, оснащенная семейство процессоров Intel Xeon Silver 4100 или Intel Xeon Gold 6100, а также 32, 48 или 64 VE типа 10A или 10B.

. Все типы имеют исключительно воздушное охлаждение, за исключением серии A500, в которой также используется водяное охлаждение.

Программное обеспечение

Операционная система

Операционная система векторного движка (VE) называется «VEOS», и она полностью выгружена на хост-систему, векторный хост (VH). VEOS состоит из модулей ядра и демонов пользовательского пространства, которые:

  • управляют процессами VE и их планирование в VE
  • управляют адресными пространствами виртуальной памяти процессов VE
  • обрабатывают передачи между VH и Память VE с помощью механизмов DMA VE
  • обрабатывает прерывания и исключения процессов VE, а также их системные вызовы.

VEOS поддерживает многозадачность на VE, и почти все системные вызовы Linux поддерживаются в VE libc. Выгрузка служб операционной системы на виртуальный виртуальный сервер смещает джиттер ОС с виртуального компьютера за счет увеличения задержек. Все пакеты, относящиеся к операционной системе VE, находятся под лицензией Стандартной общественной лицензии GNU и были опубликованы на github.com / veos-sxarr-nec.

Позже, похоже, NEC отказались от VEOS в пользу Red Hat Enterprise Linux или CentOS.

Разработка программного обеспечения

NEC предоставляет разработчикам и клиентам комплект средств разработки программного обеспечения. Он содержит запатентованные продукты и должен быть приобретен у NEC. SDK содержит:

  • компиляторы C, C ++ и Fortran, которые поддерживают автоматическую векторизацию и автоматическое распараллеливание, а также OpenMP.
  • Инструменты оптимизации производительности: ftraceviewer и veperf.
  • Оптимизированные числовые библиотеки для VE: BLAS, SBLAS, LAPACK, SCALAPACK, ASL, Heterosolver.

NEC MPI также является частной реализацией и соответствует стандартной спецификации MPI-3.1.

Можно создавать гибридные программы, использующие VE в качестве ускорителя для определенных функций ядра хоста с помощью C-API разгрузки VE. В некоторой степени разгрузка VE сравнима с OpenCL и CUDA, но обеспечивает более простой API и позволяет разрабатывать ядра на обычном C, C ++ или Fortran и использовать практически любой системный вызов на VE. Привязки Python к VEO доступны на github.com / SX-Aurora / py-veo.

Ссылки
Внешние ссылки

.

Последняя правка сделана 2021-05-31 06:40:34
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте