Ampere (микроархитектура)

редактировать
Микроархитектура графического процессора, разработанная NVIDIA

Nvidia Ampere
Процесс изготовления
История
Предшественник
ПреемникХоппер

Ампер - это кодовое имя для микроархитектуры графического процессора (GPU), разработанное Nvidia в качестве преемника обоих Архитектура Вольта и Тьюринг, официально анонсированная 14 мая 2020 года. Она названа в честь французского математика и физика Андре-Мари Ампера. Nvidia анонсировала потребительские графические процессоры следующего поколения серии GeForce 30 на специальном мероприятии GeForce 1 сентября 2020 года.

Содержание
  • 1 Подробности
    • 1.1 Чипы
  • 2 Ускоритель A100 и DGX A100
  • 3 Продукты, использующие Ampere
  • 4 Ссылки
  • 5 Внешние ссылки
Подробности

Архитектурные улучшения архитектуры Ampere включают следующее:

  • CUDA Compute Capability 8.0 для A100 и 8.6 для серии GeForce 30
  • TSMC 7 нм FinFET процесс для A100
  • Пользовательская версия Процесс Samsung 8nm (8N) для серии GeForce 30
  • тензорных ядер третьего поколения с поддержкой FP16, bfloat16, TensorFloat-32 (TF32) и FP64 и разреженным ускорением
  • Ядра трассировки лучей второго поколения; одновременная трассировка лучей, затенение и вычисления для серии GeForce 30
  • High Bandwidth Memory 2 (HBM2) на A100
  • GDDR6X памяти для GeForce RTX 3090 и 3080
  • Double FP32 ядер на SM на графических процессорах GA10x
  • NVLink 3.0 с пропускной способностью 50 Гбит / с на пару
  • PCI Express 4.0 с поддержкой SR-IOV (SR-IOV зарезервирован только для A100)
  • Функция виртуализации многоэкземплярного графического процессора (MIG) и разделения графического процессора в A100 с поддержкой до семи экземпляров
  • PureVideo набор функций K аппаратного декодирования видео с аппаратным декодированием AV1 для серии GeForce 30 и набор функций J для A100
  • 5 NVDEC для A100
  • Добавляет новое аппаратное 5-ядерное декодирование JPEG (NVJPG ) с YUV420, YUV422, ЮВ444, ЮВ400, RGBA. Не следует путать с Nvidia NVJPEG (GPU-ускоренная библиотека для кодирования / декодирования JPEG)

Chips

  • GA100
  • GA102
  • GA104

Сравнение вычислительных возможностей: GP100, GV100 и GA100

Характеристики графического процессораNVIDIA Tesla P100NVIDIA Tesla V100NVIDIA A100
GPU Кодовое имяGP100GV100GA100
Архитектура графического процессораNVIDIA PascalNVIDIA VoltaNVIDIA Ампер
Вычислительные возможности6,07,08,0
Резьба / деформация323232
Макс. Коробление / SM646464
Макс. Количество резьбы / SM204820482048
Максимальное количество блоков потоков / SM323232
Максимальное количество 32-битных регистров / SM655366553665536
Максимальное количество регистров / блок655366553665536
Максимальное количество регистров / поток255255255
Максимальный размер блока потока102410241024
Ядра FP32 / SM646464
Отношение регистров SM к ядрам FP32102410241024
Размер общей памяти / SM64 КБНастраивается до 96 КБНастраивается до 164 KB

Сравнение матрицы поддержки точности

Поддерживаемая точность ядер CUDAПоддерживаемая точность ядер тензорных ядер
FP16FP32FP64INT1 (двоичный)INT4INT8TF32bfloat16 (BF16)FP16FP32FP64INT1 (двоичный)INT4INT8TF32bfloat16 (BF16)
NVIDIA Tesla P4NoДаДаNoNoДаNoNoNoNoNoNoNoNoNoНет
NVIDIA P100ДаДаДаNoNoNoNoNoNoNoNoNoNoNoNoНет
NVIDIA VoltaДаДаДаNoNoДаNoNoДаNoNoNoNoNoNoНет
NVIDIA TuringДаДаДаNoNoДаNoNoДаNoNoДаДаДаNoНет
NVIDIA A100ДаДаДаNoNoДаNoДаДаNoДаДаДаДаДаДа

Сравнение производительности декодирования

Параллельные потокиДекодирование H.264 (1080p30)Декодирование H.265 (HEVC) (1080p30)Декодирование VP9 (1080p30)
V100162222
A10075157108
Ускоритель A100 и DGX A100

14 мая 2020 года был анонсирован и выпущен ускоритель A100 на базе Ampere.. A100 имеет 19,5 терафлопс производительности FP32, 6912 ядер CUDA, 40 ГБ графической памяти и 1,6 ТБ / с пропускной способности графической памяти. Изначально ускоритель A100 был доступен только в 3-м поколении серверов DGX, включая 8 A100. В DGX A100 также входит 15 ТБ памяти PCIe поколения 4 NVMe, два 64-ядерных процессора AMD Rome 7742, 1 ТБ оперативной памяти и Межкомпонентное соединение HDR InfiniBand с питанием от Mellanox. Начальная цена DGX A100 составляла 199 000 долларов.

Сравнение ускорителей, используемых в DGX:

Accelerator
A100
V100
P100
АрхитектураЯдра CUDA FP32Ядра FP64 (без тензор)Ядра INT32Тактовая частота с повышением частотыТактовая частота памятиШирина шины памятиПропускная способность памятиVRAMSingle PrecisionDouble Precision (FP64)INT8 (без тензорного)INT8 TensorINT32FP16FP16 Tensorbfloat16 TensorTensorFloat-32 (TF32) TensorFP64 TensorInterconnectGPUРазмер кэша L1Размер кэша L2Размер кристалла GPUКоличество транзисторовTDPПроизводственный процесс
Ampere6912345669121410 МГц2,4 Гбит / с HBM25120 бит1555 ГБ / сек40 ГБ19,5 ТФЛОПов9,7 терафлопсн / д624 терафлопса19,5 терафлопса78 терафлопс312 терафлопс312 терафлопс156 терафлопс19,5 терафлопс600 ГБ / секGA10020736KB (192KBx108)40960 KB826mm254,2B400WTSMC 7 нм N7
Volta5120256051201530 МГц1,75 Гбит / s HBM24096 бит900 ГБ / сек16 ГБ / 32 ГБ15,7 терафлопс7,8 терафлопс62 ТОПН / Д15,7 ТОП31,4 ТФЛОП125 ТФЛОПН / ДН / ДН / Д300 ГБ / секGV10010240 КБ (128 КБx80)6144 КБ815мм221.1B300W/350WTSMC 12 нм FFN
Паскаль35841792Н / Д1480 МГц1,4 Гбит / с HBM24096 бит720 ГБ / с16 ГБ10,6 терафлопс5,3 терафлопсн / дн / дн / д21,2 терафлопсн / дн / дн / дн / д160 ГБ / сGP1001344 КБ (24 КБ x 56)4096 КБ610 мм215,3B300 ВтTSMC 16 нм FinFET +

.

Продукты, использующие Ampere
Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-10 19:31:56
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте