Процесс изготовления | |
---|---|
История | |
Предшественник | |
Преемник | Хоппер |
Ампер - это кодовое имя для микроархитектуры графического процессора (GPU), разработанное Nvidia в качестве преемника обоих Архитектура Вольта и Тьюринг, официально анонсированная 14 мая 2020 года. Она названа в честь французского математика и физика Андре-Мари Ампера. Nvidia анонсировала потребительские графические процессоры следующего поколения серии GeForce 30 на специальном мероприятии GeForce 1 сентября 2020 года.
Архитектурные улучшения архитектуры Ampere включают следующее:
Сравнение вычислительных возможностей: GP100, GV100 и GA100
Характеристики графического процессора | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
---|---|---|---|
GPU Кодовое имя | GP100 | GV100 | GA100 |
Архитектура графического процессора | NVIDIA Pascal | NVIDIA Volta | NVIDIA Ампер |
Вычислительные возможности | 6,0 | 7,0 | 8,0 |
Резьба / деформация | 32 | 32 | 32 |
Макс. Коробление / SM | 64 | 64 | 64 |
Макс. Количество резьбы / SM | 2048 | 2048 | 2048 |
Максимальное количество блоков потоков / SM | 32 | 32 | 32 |
Максимальное количество 32-битных регистров / SM | 65536 | 65536 | 65536 |
Максимальное количество регистров / блок | 65536 | 65536 | 65536 |
Максимальное количество регистров / поток | 255 | 255 | 255 |
Максимальный размер блока потока | 1024 | 1024 | 1024 |
Ядра FP32 / SM | 64 | 64 | 64 |
Отношение регистров SM к ядрам FP32 | 1024 | 1024 | 1024 |
Размер общей памяти / SM | 64 КБ | Настраивается до 96 КБ | Настраивается до 164 KB |
Сравнение матрицы поддержки точности
Поддерживаемая точность ядер CUDA | Поддерживаемая точность ядер тензорных ядер | |||||||||||||||
FP16 | FP32 | FP64 | INT1 (двоичный) | INT4 | INT8 | TF32 | bfloat16 (BF16) | FP16 | FP32 | FP64 | INT1 (двоичный) | INT4 | INT8 | TF32 | bfloat16 (BF16) | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Tesla P4 | No | Да | Да | No | No | Да | No | No | No | No | No | No | No | No | No | Нет |
NVIDIA P100 | Да | Да | Да | No | No | No | No | No | No | No | No | No | No | No | No | Нет |
NVIDIA Volta | Да | Да | Да | No | No | Да | No | No | Да | No | No | No | No | No | No | Нет |
NVIDIA Turing | Да | Да | Да | No | No | Да | No | No | Да | No | No | Да | Да | Да | No | Нет |
NVIDIA A100 | Да | Да | Да | No | No | Да | No | Да | Да | No | Да | Да | Да | Да | Да | Да |
Сравнение производительности декодирования
Параллельные потоки | Декодирование H.264 (1080p30) | Декодирование H.265 (HEVC) (1080p30) | Декодирование VP9 (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
14 мая 2020 года был анонсирован и выпущен ускоритель A100 на базе Ampere.. A100 имеет 19,5 терафлопс производительности FP32, 6912 ядер CUDA, 40 ГБ графической памяти и 1,6 ТБ / с пропускной способности графической памяти. Изначально ускоритель A100 был доступен только в 3-м поколении серверов DGX, включая 8 A100. В DGX A100 также входит 15 ТБ памяти PCIe поколения 4 NVMe, два 64-ядерных процессора AMD Rome 7742, 1 ТБ оперативной памяти и Межкомпонентное соединение HDR InfiniBand с питанием от Mellanox. Начальная цена DGX A100 составляла 199 000 долларов.
Сравнение ускорителей, используемых в DGX:
Accelerator |
---|
A100 |
V100 |
P100 |
Архитектура | Ядра CUDA FP32 | Ядра FP64 (без тензор) | Ядра INT32 | Тактовая частота с повышением частоты | Тактовая частота памяти | Ширина шины памяти | Пропускная способность памяти | VRAM | Single Precision | Double Precision (FP64) | INT8 (без тензорного) | INT8 Tensor | INT32 | FP16 | FP16 Tensor | bfloat16 Tensor | TensorFloat-32 (TF32) Tensor | FP64 Tensor | Interconnect | GPU | Размер кэша L1 | Размер кэша L2 | Размер кристалла GPU | Количество транзисторов | TDP | Производственный процесс |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Ampere | 6912 | 3456 | 6912 | 1410 МГц | 2,4 Гбит / с HBM2 | 5120 бит | 1555 ГБ / сек | 40 ГБ | 19,5 ТФЛОПов | 9,7 терафлопс | н / д | 624 терафлопса | 19,5 терафлопса | 78 терафлопс | 312 терафлопс | 312 терафлопс | 156 терафлопс | 19,5 терафлопс | 600 ГБ / сек | GA100 | 20736KB (192KBx108) | 40960 KB | 826mm2 | 54,2B | 400W | TSMC 7 нм N7 |
Volta | 5120 | 2560 | 5120 | 1530 МГц | 1,75 Гбит / s HBM2 | 4096 бит | 900 ГБ / сек | 16 ГБ / 32 ГБ | 15,7 терафлопс | 7,8 терафлопс | 62 ТОП | Н / Д | 15,7 ТОП | 31,4 ТФЛОП | 125 ТФЛОП | Н / Д | Н / Д | Н / Д | 300 ГБ / сек | GV100 | 10240 КБ (128 КБx80) | 6144 КБ | 815мм2 | 21.1B | 300W/350W | TSMC 12 нм FFN |
Паскаль | 3584 | 1792 | Н / Д | 1480 МГц | 1,4 Гбит / с HBM2 | 4096 бит | 720 ГБ / с | 16 ГБ | 10,6 терафлопс | 5,3 терафлопс | н / д | н / д | н / д | 21,2 терафлопс | н / д | н / д | н / д | н / д | 160 ГБ / с | GP100 | 1344 КБ (24 КБ x 56) | 4096 КБ | 610 мм2 | 15,3B | 300 Вт | TSMC 16 нм FinFET + |
.