Общая информация | |
---|---|
Запущен | 2014 г. |
Разработано | IBM |
Представление | |
Максимум. Тактовая частота процессора | От 2,5 ГГц до 5 ГГц |
Кэш | |
Кэш L1 | 64 + 32 КБ на ядро |
Кэш L2 | 512 КБ на ядро |
Кэш L3 | 8 МБ на чиплет |
Кэш L4 | 16 МБ на Centaur |
Архитектура и классификация | |
Мин. размер элемента | 22 морских миль |
Набор инструкций | Power ISA ( Power ISA v.2.07 ) |
Физические характеристики | |
Ядра | |
История | |
Предшественник | МОЩНОСТЬ7 |
Преемник | МОЩНОСТЬ9 |
Архитектуры POWER, PowerPC и Power ISA |
---|
NXP (ранее Freescale и Motorola) |
IBM |
|
IBM / Nintendo |
Другой |
Ссылки по теме |
Отменено серым цветом, историческое - курсивом |
|
POWER8 - это семейство суперскалярных многоядерных микропроцессоров на основе Power ISA, анонсированного в августе 2013 года на конференции Hot Chips. Эти проекты доступны для лицензирования в рамках OpenPOWER Foundation, что является первым случаем, когда такая доступность процессоров IBM высшего класса предоставляется.
Системы на базе POWER8 стали доступны от IBM в июне 2014 года. Системы и процессоры POWER8, разработанные другими членами OpenPOWER, были доступны в начале 2015 года.
POWER8 спроектирован как массивный многопоточный чип, каждое из его ядер способно одновременно обрабатывать восемь аппаратных потоков, в общей сложности 96 потоков, выполняемых одновременно на 12-ядерном чипе. Процессор использует очень большие объемы встроенных и внешних кешей eDRAM, а встроенные контроллеры памяти обеспечивают очень высокую пропускную способность для памяти и системного ввода-вывода. Считается, что для большинства рабочих нагрузок чип работает в два-три раза быстрее, чем его предшественник, POWER7.
Чипы POWER8 выпускаются в 6- или 12-ядерном вариантах; каждая версия изготавливается по технологии кремния на изоляторе (КНИ) с размером 22 нм с использованием 15 металлических слоев. 12-ядерная версия состоит из 4,2 миллиарда транзисторов и имеет размер 650 мм 2, а 6-ядерная версия - всего 362 мм 2. Однако в вариантах с 6 и 12 ядрами могут быть активны все или только некоторые ядра, поэтому процессоры POWER8 поставляются с активированными 4, 6, 8, 10 или 12 ядрами.
Если предыдущие процессоры POWER использовали шину GX ++ для внешней связи, POWER8 удаляет это из конструкции и заменяет порт CAPI (интерфейс согласованного ускорительного процессора), расположенный поверх PCI Express 3.0. Порт CAPI используется для подключения вспомогательных специализированных процессоров, таких как графические процессоры, ASIC и FPGA. Модули, подключенные к шине CAPI, могут использовать то же адресное пространство памяти, что и ЦП, тем самым сокращая длину вычислительного пути. На конференции ACM / IEEE Supercomputing 2013 года IBM и Nvidia объявили о сотрудничестве в области инженерии, чтобы тесно связать POWER8 с графическими процессорами Nvidia в будущих системах высокопроизводительных вычислений, первая из которых была анонсирована как Power Systems S824L.
14 октября 2016 года IBM объявила о создании OpenCAPI, новой организации, призванной распространить внедрение CAPI на другие платформы. Первоначальные участники - Google, AMD, Xilinx, Micron и Mellanox.
POWER8 также содержит так называемый встроенный контроллер (OCC), который представляет собой микроконтроллер управления питанием и температурой, основанный на процессоре PowerPC 405. Он имеет два механизма разгрузки общего назначения (GPE) и 512 КБ встроенной статической ОЗУ (SRAM) (1 КБ = 1024 байта), а также возможность прямого доступа к основной памяти при запуске прошивки с открытым исходным кодом. OCC управляет рабочей частотой POWER8, напряжением, пропускной способностью памяти и терморегулятором как для процессора, так и для памяти; он может оперативно регулировать напряжение с помощью 1764 встроенных регуляторов напряжения (IVR). Кроме того, OCC можно запрограммировать на разгон процессора POWER8 или на снижение его энергопотребления за счет снижения рабочей частоты (что аналогично настраиваемому TDP в некоторых процессорах Intel и AMD).
POWER8 разделяет функции контроллера памяти, перемещая некоторые из них от процессора и ближе к памяти. Логика планирования, управление энергией памяти и точка принятия решения RAS перемещены в так называемую микросхему буфера памяти (также известную как Centaur). Выгрузка определенных процессов памяти в микросхему буфера памяти позволяет оптимизировать доступ к памяти, экономит полосу пропускания и позволяет ускорить обмен данными между процессором и памятью. Он также содержит структуры кэширования для дополнительных 16 МБ кэша L4 на чип (до 128 МБ на процессор) (1 МБ = 1024 КБ). В зависимости от архитектуры системы микросхемы буфера памяти размещаются либо на модулях памяти (Custom DIMM / CDIMM, например, в моделях S824 и E880), либо на переходной плате памяти, содержащей стандартные модули DIMM (например, в моделях S822LC).
Чип буфера памяти подключается к процессору с помощью высокоскоростного многополосного последовательного канала. Канал памяти, соединяющий каждый буферный чип, может записывать 2 байта и читать 1 байт за раз. Он работает со скоростью 8 ГБ / с в ранних моделях начального уровня, позже увеличился в моделях high-end и HPC до 9,6 ГБ / с с задержкой 40 нс, что обеспечивает устойчивую пропускную способность 24 ГБ / с и 28,8 ГБ / с. на канал соответственно. Каждый процессор имеет два контроллера памяти с четырьмя каналами памяти каждый, а максимальная пропускная способность между процессором и буфером памяти составляет 230,4 ГБ / с на процессор. В зависимости от модели может быть включен только один контроллер или может использоваться только два канала на контроллер. Для повышения доступности линия обеспечивает изоляцию и ремонт полосы движения «на лету».
Каждая микросхема буфера памяти имеет четыре интерфейса, позволяющих использовать память DDR3 или DDR4 на частоте 1600 МГц без изменения интерфейса связи с процессором. В результате 32 канала памяти на процессор обеспечивают пиковую скорость доступа 409,6 ГБ / с между микросхемами буфера памяти и банками DRAM. Первоначально поддержка была ограничена модулями DIMM 16 ГБ, 32 ГБ и 64 ГБ, что позволяло процессору обрабатывать до 1 ТБ. Позже была объявлена поддержка модулей DIMM 128 ГБ и 256 ГБ, что позволяет использовать до 4 ТБ на процессор.
Ядро POWER8 имеет кэш-память L1 размером 64 КБ, содержащуюся в блоке загрузки-хранения, и кэш-память инструкций L1 размером 32 КБ, содержащуюся в блоке выборки инструкций, а также плотно интегрированный кэш L2 объемом 512 КБ. За один цикл каждое ядро может получить до восьми инструкций, декодировать и отправить до восьми инструкций, выдать и выполнить до десяти инструкций и зафиксировать до восьми инструкций.
Каждое ядро POWER8 состоит в основном из следующих шести исполнительных блоков :
Каждое ядро имеет шестнадцать конвейеров выполнения:
Он имеет большую очередь задач с 4 × 16 записями, улучшенные предсказатели ветвлений и может обрабатывать вдвое больше промахов кеша. Каждое ядро является восьмипроцессорным аппаратным многопоточным, и его можно динамически и автоматически разбивать на разделы, чтобы иметь один, два, четыре или все восемь активных потоков. POWER8 также добавил поддержку аппаратной транзакционной памяти. По оценкам IBM, каждое ядро в 1,6 раза быстрее POWER7 в однопоточных операциях.
Процессор POWER8 представляет собой конструкцию из 6 или 12 чиплетов с вариантами из 4, 6, 8, 10 или 12 активированных чиплетов, в которых один чиплет состоит из одного ядра обработки, 512 КБ кэш-памяти SRAM L2 на 64-байтовой ширине. шина (которая вдвое шире, чем у его предшественника), и 8 МБ кэш-памяти L3 eDRAM на чиплет, совместно используемый всеми чиплетами. Таким образом, процессор с шестью микросхемами будет иметь 48 МБ кеш-памяти eDRAM L3, а процессор с 12 микросхемами будет иметь в общей сложности 96 МБ кеш-памяти eDRAM L3. Чип также может использовать до 128 МБ внешней кэш-памяти eDRAM L4 с использованием дополнительных микросхем Centaur. Контроллеры памяти на кристалле могут обрабатывать 1 ТБ ОЗУ и стабильную пропускную способность памяти 230 ГБ / с. Встроенные контроллеры PCI Express могут обрабатывать 48 ГБ / с ввода-вывода для других частей системы. Ядра предназначены для работы с тактовой частотой от 2,5 до 5 ГГц.
Шестиядерные микросхемы устанавливаются парами в двухчиповые модули (DCM) в горизонтально масштабируемых серверах IBM. В большинстве конфигураций не все ядра активны, что приводит к множеству конфигураций, в которых фактическое количество ядер различается. 12-ядерная версия используется в старших моделях E880 и E880C.
Одночиповый модуль POWER8 от IBM называется Turismo, а двухчиповый вариант - Murano. Модифицированная версия PowerCore называется CP1.
Это переработанная версия оригинального 12-ядерного процессора POWER8 от IBM, который раньше назывался POWER8 +. Основная новая функция заключается в том, что он поддерживает технологию шины NVLink от Nvidia, которая позволяет подключать до четырех устройств NVLink напрямую к микросхеме. IBM удалила интерфейсы A Bus и PCI для SMP-соединений с другими сокетами POWER8 и заменила их интерфейсами NVLink. Подключение к второму гнезду процессора теперь осуществляется через X Bus. Помимо этого и небольшого увеличения размера до 659 мм 2, различия кажутся минимальными по сравнению с предыдущими процессорами POWER8.
19 января 2014 года компания Suzhou PowerCore Technology объявила, что присоединится к OpenPOWER Foundation и лицензирует ядро POWER8 для разработки специализированных процессоров для использования в приложениях для обработки больших данных и облачных вычислений.