МОЩНОСТЬ8

редактировать
МОЩНОСТЬ8
Общая информация
Запущен 2014 г.
Разработано IBM
Представление
Максимум. Тактовая частота процессора От 2,5 ГГц до 5 ГГц
Кэш
Кэш L1 64 + 32 КБ на ядро
Кэш L2 512 КБ на ядро
Кэш L3 8 МБ на чиплет
Кэш L4 16 МБ на Centaur
Архитектура и классификация
Мин. размер элемента 22 морских миль
Набор инструкций Power ISA ( Power ISA v.2.07 )
Физические характеристики
Ядра
История
Предшественник МОЩНОСТЬ7
Преемник МОЩНОСТЬ9
IBM Power E870 может быть сконфигурирован с использованием до 80 ядер POWER8 и 8 ТБ оперативной памяти.

POWER8 - это семейство суперскалярных многоядерных микропроцессоров на основе Power ISA, анонсированного в августе 2013 года на конференции Hot Chips. Эти проекты доступны для лицензирования в рамках OpenPOWER Foundation, что является первым случаем, когда такая доступность процессоров IBM высшего класса предоставляется.

Системы на базе POWER8 стали доступны от IBM в июне 2014 года. Системы и процессоры POWER8, разработанные другими членами OpenPOWER, были доступны в начале 2015 года.

СОДЕРЖАНИЕ
  • 1 Дизайн
    • 1.1 CAPI
    • 1.2 OCC
    • 1.3 Чип буфера памяти
  • 2 Технические характеристики
    • 2.1 POWER8 с NVLink
  • 3 Лицензиата
  • 4 варианта
  • 5 систем
  • 6 См. Также
  • 7 ссылки
  • 8 Внешние ссылки
Дизайн

POWER8 спроектирован как массивный многопоточный чип, каждое из его ядер способно одновременно обрабатывать восемь аппаратных потоков, в общей сложности 96 потоков, выполняемых одновременно на 12-ядерном чипе. Процессор использует очень большие объемы встроенных и внешних кешей eDRAM, а встроенные контроллеры памяти обеспечивают очень высокую пропускную способность для памяти и системного ввода-вывода. Считается, что для большинства рабочих нагрузок чип работает в два-три раза быстрее, чем его предшественник, POWER7.

Чипы POWER8 выпускаются в 6- или 12-ядерном вариантах; каждая версия изготавливается по технологии кремния на изоляторе (КНИ) с размером 22 нм с использованием 15 металлических слоев. 12-ядерная версия состоит из 4,2 миллиарда транзисторов и имеет размер 650 мм 2, а 6-ядерная версия - всего 362 мм 2. Однако в вариантах с 6 и 12 ядрами могут быть активны все или только некоторые ядра, поэтому процессоры POWER8 поставляются с активированными 4, 6, 8, 10 или 12 ядрами.

CAPI

Основная статья: Согласованный интерфейс процессора ускорителя

Если предыдущие процессоры POWER использовали шину GX ++ для внешней связи, POWER8 удаляет это из конструкции и заменяет порт CAPI (интерфейс согласованного ускорительного процессора), расположенный поверх PCI Express 3.0. Порт CAPI используется для подключения вспомогательных специализированных процессоров, таких как графические процессоры, ASIC и FPGA. Модули, подключенные к шине CAPI, могут использовать то же адресное пространство памяти, что и ЦП, тем самым сокращая длину вычислительного пути. На конференции ACM / IEEE Supercomputing 2013 года IBM и Nvidia объявили о сотрудничестве в области инженерии, чтобы тесно связать POWER8 с графическими процессорами Nvidia в будущих системах высокопроизводительных вычислений, первая из которых была анонсирована как Power Systems S824L.

14 октября 2016 года IBM объявила о создании OpenCAPI, новой организации, призванной распространить внедрение CAPI на другие платформы. Первоначальные участники - Google, AMD, Xilinx, Micron и Mellanox.

OCC

POWER8 также содержит так называемый встроенный контроллер (OCC), который представляет собой микроконтроллер управления питанием и температурой, основанный на процессоре PowerPC 405. Он имеет два механизма разгрузки общего назначения (GPE) и 512  КБ встроенной статической ОЗУ (SRAM) (1 КБ = 1024 байта), а также возможность прямого доступа к основной памяти при запуске прошивки с открытым исходным кодом. OCC управляет рабочей частотой POWER8, напряжением, пропускной способностью памяти и терморегулятором как для процессора, так и для памяти; он может оперативно регулировать напряжение с помощью 1764 встроенных регуляторов напряжения (IVR). Кроме того, OCC можно запрограммировать на разгон процессора POWER8 или на снижение его энергопотребления за счет снижения рабочей частоты (что аналогично настраиваемому TDP в некоторых процессорах Intel и AMD).

Чип буфера памяти

POWER8 разделяет функции контроллера памяти, перемещая некоторые из них от процессора и ближе к памяти. Логика планирования, управление энергией памяти и точка принятия решения RAS перемещены в так называемую микросхему буфера памяти (также известную как Centaur). Выгрузка определенных процессов памяти в микросхему буфера памяти позволяет оптимизировать доступ к памяти, экономит полосу пропускания и позволяет ускорить обмен данными между процессором и памятью. Он также содержит структуры кэширования для дополнительных 16  МБ кэша L4 на чип (до 128 МБ на процессор) (1 МБ = 1024 КБ). В зависимости от архитектуры системы микросхемы буфера памяти размещаются либо на модулях памяти (Custom DIMM / CDIMM, например, в моделях S824 и E880), либо на переходной плате памяти, содержащей стандартные модули DIMM (например, в моделях S822LC).

Чип буфера памяти подключается к процессору с помощью высокоскоростного многополосного последовательного канала. Канал памяти, соединяющий каждый буферный чип, может записывать 2 байта и читать 1 байт за раз. Он работает со скоростью 8  ГБ / с в ранних моделях начального уровня, позже увеличился в моделях high-end и HPC до 9,6 ГБ / с с задержкой 40 нс, что обеспечивает устойчивую пропускную способность 24 ГБ / с и 28,8 ГБ / с. на канал соответственно. Каждый процессор имеет два контроллера памяти с четырьмя каналами памяти каждый, а максимальная пропускная способность между процессором и буфером памяти составляет 230,4 ГБ / с на процессор. В зависимости от модели может быть включен только один контроллер или может использоваться только два канала на контроллер. Для повышения доступности линия обеспечивает изоляцию и ремонт полосы движения «на лету».

Каждая микросхема буфера памяти имеет четыре интерфейса, позволяющих использовать память DDR3 или DDR4 на частоте 1600 МГц без изменения интерфейса связи с процессором. В результате 32 канала памяти на процессор обеспечивают пиковую скорость доступа 409,6 ГБ / с между микросхемами буфера памяти и банками DRAM. Первоначально поддержка была ограничена модулями DIMM 16 ГБ, 32 ГБ и 64 ГБ, что позволяло процессору обрабатывать до 1 ТБ. Позже была объявлена ​​поддержка модулей DIMM 128 ГБ и 256 ГБ, что позволяет использовать до 4 ТБ на процессор.

Характеристики

Ядро POWER8 имеет кэш-память L1 размером 64  КБ, содержащуюся в блоке загрузки-хранения, и кэш-память инструкций L1 размером 32 КБ, содержащуюся в блоке выборки инструкций, а также плотно интегрированный кэш L2 объемом 512 КБ. За один цикл каждое ядро ​​может получить до восьми инструкций, декодировать и отправить до восьми инструкций, выдать и выполнить до десяти инструкций и зафиксировать до восьми инструкций.

Каждое ядро ​​POWER8 состоит в основном из следующих шести исполнительных блоков :

Каждое ядро ​​имеет шестнадцать конвейеров выполнения:

  • Два трубопровода с фиксированной точкой
  • Два загрузочно-складских трубопровода
  • Два загрузочных трубопровода
  • Четыре конвейера с плавающей запятой двойной точности, которые также могут действовать как восемь конвейеров с одинарной точностью
  • Два полностью симметричных векторных конвейера с поддержкой команд VMX и VSX AltiVec.
  • Один криптографический конвейер ( AES, режим счетчика Галуа, SHA-2 )
  • Конвейер исполнения с одной ветвью
  • Логический конвейер с одним регистром условий
  • Один десятичный конвейер с плавающей запятой

Он имеет большую очередь задач с 4 × 16 записями, улучшенные предсказатели ветвлений и может обрабатывать вдвое больше промахов кеша. Каждое ядро ​​является восьмипроцессорным аппаратным многопоточным, и его можно динамически и автоматически разбивать на разделы, чтобы иметь один, два, четыре или все восемь активных потоков. POWER8 также добавил поддержку аппаратной транзакционной памяти. По оценкам IBM, каждое ядро ​​в 1,6 раза быстрее POWER7 в однопоточных операциях.

Процессор POWER8 представляет собой конструкцию из 6 или 12 чиплетов с вариантами из 4, 6, 8, 10 или 12 активированных чиплетов, в которых один чиплет состоит из одного ядра обработки, 512 КБ кэш-памяти SRAM L2 на 64-байтовой ширине. шина (которая вдвое шире, чем у его предшественника), и 8 МБ кэш-памяти L3 eDRAM на чиплет, совместно используемый всеми чиплетами. Таким образом, процессор с шестью микросхемами будет иметь 48 МБ кеш-памяти eDRAM L3, а процессор с 12 микросхемами будет иметь в общей сложности 96 МБ кеш-памяти eDRAM L3. Чип также может использовать до 128 МБ внешней кэш-памяти eDRAM L4 с использованием дополнительных микросхем Centaur. Контроллеры памяти на кристалле могут обрабатывать 1 ТБ ОЗУ и стабильную пропускную способность памяти 230 ГБ / с. Встроенные контроллеры PCI Express могут обрабатывать 48 ГБ / с ввода-вывода для других частей системы. Ядра предназначены для работы с тактовой частотой от 2,5 до 5 ГГц.

Шестиядерные микросхемы устанавливаются парами в двухчиповые модули (DCM) в горизонтально масштабируемых серверах IBM. В большинстве конфигураций не все ядра активны, что приводит к множеству конфигураций, в которых фактическое количество ядер различается. 12-ядерная версия используется в старших моделях E880 и E880C.

Одночиповый модуль POWER8 от IBM называется Turismo, а двухчиповый вариант - Murano. Модифицированная версия PowerCore называется CP1.

POWER8 с NVLink

Это переработанная версия оригинального 12-ядерного процессора POWER8 от IBM, который раньше назывался POWER8 +. Основная новая функция заключается в том, что он поддерживает технологию шины NVLink от Nvidia, которая позволяет подключать до четырех устройств NVLink напрямую к микросхеме. IBM удалила интерфейсы A Bus и PCI для SMP-соединений с другими сокетами POWER8 и заменила их интерфейсами NVLink. Подключение к второму гнезду процессора теперь осуществляется через X Bus. Помимо этого и небольшого увеличения размера до 659 мм 2, различия кажутся минимальными по сравнению с предыдущими процессорами POWER8.

Лицензиаты

19 января 2014 года компания Suzhou PowerCore Technology объявила, что присоединится к OpenPOWER Foundation и лицензирует ядро ​​POWER8 для разработки специализированных процессоров для использования в приложениях для обработки больших данных и облачных вычислений.

Варианты
  • IBM Murano  - 12-ядерный процессор с двумя шестиядерными микросхемами. Масштабируемый процессор доступен в конфигурациях с отключенными ядрами.
  • IBM Turismo  - одночиповый 12-ядерный процессор. Масштабируемый процессор коммерчески доступен для лицензирования и покупки в конфигурациях с отключенными ядрами.
  • PowerCore CP1  - вариант POWER8 с улучшенными функциями безопасности из-за экспортных ограничений между США и Китаем, который будет производиться на заводе GlobalFoundries (бывший завод IBM) в Ист-Фишкилле, штат Нью-Йорк. Выпущен в 2015 году.
Системы
Вид сзади E870, на котором системный блок управления находится сверху, а системный узел - посередине.
IBM
Серверы Scale Out, поддерживающие один или два разъема, на каждом из которых установлен двухчиповый модуль с двумя шестиядерными процессорами POWER8. Они выпускаются в форм-факторах 2U или 4U и имеют конфигурацию «башня». Версии "L" работают только с Linux, а другие - под AIX, IBM i и Linux. Версии "LC" созданы партнерами OpenPOWER.
  • Power Systems S812L  - 1 × POWER8 DCM (4, 6 или 8 ядер), 2U
  • Power Systems S814  - 1 × POWER8 DCM (6 или 8 ядер), 4U или башня
  • Системы питания S822 и S822L  - 1 × или 2 × POWER8 DCM (6, 10, 12 или 20 ядер), 2U
  • Power Systems S824 и S824L  - 1 × или 2 × POWER8 DCM (6, 8, 12, 16 или 24 ядра), 4U
  • Системы питания S821LC "Stratton"  - 2 × POWER8 SCM (8 или 10 ядер), 1U. ОЗУ DDR4 объемом до 512 ГБ с буферизацией четырех микросхем Centaur L4. Изготовлено Supermicro.
  • Power Systems S822LC для больших данных «Briggs»  - 2 × POWER8 SCM (8 или 10 ядер), 2U. ОЗУ DDR4 объемом до 512 ГБ с буферизацией четырех микросхем Centaur L4. Изготовлено Supermicro.
Корпоративные серверы, поддерживающие узлы с четырьмя сокетами, каждый из которых несет 8-, 10- или 12-ядерные модули, максимум 16 сокетов, 128 ядер и 16 ТБ ОЗУ. Эти машины могут работать под управлением AIX, IBM i или Linux.
  • Power Systems E850  - 2 ×, 3 × или 4 × POWER8 DCM (8, 10 или 12 ядер), 4U
  • Power Systems E870  - 1 или 2 узла 5U, каждый с четырьмя разъемами с 8- или 10-ядерными однокристальными модулями POWER8, всего до 80 ядер
  • Power Systems E880  - 1x, 2x, 3x или 4x узла 5U, каждый с четырьмя разъемами с 8- или 12-ядерными однокристальными модулями POWER8, всего до 192 ядер
Высокопроизводительные вычисления :
  • Power Systems S812LC  - 1 × POWER8 SCM (8 или 10 ядер), 2U. Производитель Tyan.
  • Системы питания S822LC "Firestone"  - 2 × POWER8 SCM (8 или 10 ядер), 2U. Два графических процессора Nvidia Tesla K80 и стандартная оперативная память DDR3 объемом до 1 ТБ. Изготовлено Wistron.
  • Системы питания S822LC для HPC «Минский»  - 2 × POWER8 + SCM (8 или 10 ядер), 2U. До четырех графических процессоров Nvidia Tesla P100 с подключением к NVLink и до 1 ТБ оперативной памяти DDR4. Изготовлено Wistron.
Консоль управления оборудованием
  • 7063-CR1 HMC  - 1 × POWER8 SCM (6 ядер), 1U. На основе дизайна SuperMicro "Stratton".
Тянь
  • ATX материнской платы с одним гнездом Power8 однокристального называется SP010GM2NR.
  • Palmetto GN70-BP010, справочная система OpenPower. Сервер 2U, с одним четырехъядерным процессором POWER8 SCM, четырьмя разъемами для оперативной памяти, на базе материнской платы Tyan.
  • Хабанеро TN-71-BP012. 2U, с одним 8-ядерным POWER8 SCM, 32 разъема RAM
  • GT75-BP012. 1U, с одним 8- или 10-ядерным POWER8 SCM и 32 разъемами для модулей RAM
Google
Google показал материнскую плату с двумя разъемами, предназначенную только для внутреннего использования.
StackVelocity
Компания StackVelocity разработала высокопроизводительную эталонную платформу Saba.
Inspur
Inspur заключила сделку с IBM на разработку серверного оборудования на базе POWER8 и связанных технологий.
  • Сервер 4U, два разъема POWER8.
Cirrascale
RM4950  - 4U, 4-ядерный модуль POWER8 SCM с четырьмя ускорителями Nvidia Tesla K40. На базе материнской платы Tyan.
Zoom Netcom
RedPOWER C210 и C220  - серверы 2U и 4U с двумя разъемами POWER8 и 64 разъемами для модулей RAM.
RedPOWER C310 и C320  - серверы 2U и 4U с двумя сокетами CP1.
ChuangHe
OP-1X  - 1U, одинарная розетка, 32 слота для оперативной памяти.
Rackspace
Barreleye  - 1U, 2 сокета, 32 слота для оперативной памяти. На основе платформы Open Compute Project для использования в их сервисе OnMetal.
Вычислительные системы Raptor / Raptor Engineering
Talos I  - невыпущенный сервер или рабочая станция 4U, 1 сокет, 8 слотов RAM.
Penguin Computing
Серия продуктов Magna
  • Magna 2001 (разработка программного обеспечения)
  • Magna 1015 (виртуализация)
  • Magna 2002 и Magna 2002S (машинное обучение)
Смотрите также
использованная литература
внешние ссылки
Последняя правка сделана 2023-04-05 06:57:51
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте