Ampere (микроархитектура)

редактировать

Микроархитектура графического процессора, разработанная NVIDIA

Nvidia Ampere
История
Процесс изготовления	TSMC 7 нм (Professional) Samsung 8 нм (потребительский)
Предшественник	Тьюринг (потребительский) Volta (профессиональный)
Преемник	Хоппер

Ампер - это кодовое имя для микроархитектуры графического процессора (GPU), разработанное Nvidia в качестве преемника обоих Архитектура Вольта и Тьюринг, официально анонсированная 14 мая 2020 года. Она названа в честь французского математика и физика Андре-Мари Ампера. Nvidia анонсировала потребительские графические процессоры следующего поколения серии GeForce 30 на специальном мероприятии GeForce 1 сентября 2020 года.

Содержание

1 Подробности
- 1.1 Чипы
2 Ускоритель A100 и DGX A100
3 Продукты, использующие Ampere
4 Ссылки
5 Внешние ссылки

Подробности

Архитектурные улучшения архитектуры Ampere включают следующее:

CUDA Compute Capability 8.0 для A100 и 8.6 для серии GeForce 30
TSMC 7 нм FinFET процесс для A100
Пользовательская версия Процесс Samsung 8nm (8N) для серии GeForce 30
тензорных ядер третьего поколения с поддержкой FP16, bfloat16, TensorFloat-32 (TF32) и FP64 и разреженным ускорением
Ядра трассировки лучей второго поколения; одновременная трассировка лучей, затенение и вычисления для серии GeForce 30
High Bandwidth Memory 2 (HBM2) на A100
GDDR6X памяти для GeForce RTX 3090 и 3080
Double FP32 ядер на SM на графических процессорах GA10x
NVLink 3.0 с пропускной способностью 50 Гбит / с на пару
PCI Express 4.0 с поддержкой SR-IOV (SR-IOV зарезервирован только для A100)
Функция виртуализации многоэкземплярного графического процессора (MIG) и разделения графического процессора в A100 с поддержкой до семи экземпляров
PureVideo набор функций K аппаратного декодирования видео с аппаратным декодированием AV1 для серии GeForce 30 и набор функций J для A100
5 NVDEC для A100
Добавляет новое аппаратное 5-ядерное декодирование JPEG (NVJPG ) с YUV420, YUV422, ЮВ444, ЮВ400, RGBA. Не следует путать с Nvidia NVJPEG (GPU-ускоренная библиотека для кодирования / декодирования JPEG)

Chips

GA100
GA102
GA104

Сравнение вычислительных возможностей: GP100, GV100 и GA100

Характеристики графического процессора	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
GPU Кодовое имя	GP100	GV100	GA100
Архитектура графического процессора	NVIDIA Pascal	NVIDIA Volta	NVIDIA Ампер
Вычислительные возможности	6,0	7,0	8,0
Резьба / деформация	32	32	32
Макс. Коробление / SM	64	64	64
Макс. Количество резьбы / SM	2048	2048	2048
Максимальное количество блоков потоков / SM	32	32	32
Максимальное количество 32-битных регистров / SM	65536	65536	65536
Максимальное количество регистров / блок	65536	65536	65536
Максимальное количество регистров / поток	255	255	255
Максимальный размер блока потока	1024	1024	1024
Ядра FP32 / SM	64	64	64
Отношение регистров SM к ядрам FP32	1024	1024	1024
Размер общей памяти / SM	64 КБ	Настраивается до 96 КБ	Настраивается до 164 KB

Сравнение матрицы поддержки точности

	FP16	FP32	FP64	INT1 (двоичный)	INT4	INT8	TF32	bfloat16 (BF16)	FP16	FP32	FP64	INT1 (двоичный)	INT4	INT8	TF32	bfloat16 (BF16)
	Поддерживаемая точность ядер CUDA								Поддерживаемая точность ядер тензорных ядер
NVIDIA Tesla P4	No	Да	Да	No	No	Да	No	No	No	No	No	No	No	No	No	Нет
NVIDIA P100	Да	Да	Да	No	No	No	No	No	No	No	No	No	No	No	No	Нет
NVIDIA Volta	Да	Да	Да	No	No	Да	No	No	Да	No	No	No	No	No	No	Нет
NVIDIA Turing	Да	Да	Да	No	No	Да	No	No	Да	No	No	Да	Да	Да	No	Нет
NVIDIA A100	Да	Да	Да	No	No	Да	No	Да	Да	No	Да	Да	Да	Да	Да	Да

Сравнение производительности декодирования

Параллельные потоки	Декодирование H.264 (1080p30)	Декодирование H.265 (HEVC) (1080p30)	Декодирование VP9 (1080p30)
V100	16	22	22
A100	75	157	108

Ускоритель A100 и DGX A100

14 мая 2020 года был анонсирован и выпущен ускоритель A100 на базе Ampere.. A100 имеет 19,5 терафлопс производительности FP32, 6912 ядер CUDA, 40 ГБ графической памяти и 1,6 ТБ / с пропускной способности графической памяти. Изначально ускоритель A100 был доступен только в 3-м поколении серверов DGX, включая 8 A100. В DGX A100 также входит 15 ТБ памяти PCIe поколения 4 NVMe, два 64-ядерных процессора AMD Rome 7742, 1 ТБ оперативной памяти и Межкомпонентное соединение HDR InfiniBand с питанием от Mellanox. Начальная цена DGX A100 составляла 199 000 долларов.

Сравнение ускорителей, используемых в DGX:

Accelerator
A100
V100
P100

Архитектура	Ядра CUDA FP32	Ядра FP64 (без тензор)	Ядра INT32	Тактовая частота с повышением частоты	Тактовая частота памяти	Ширина шины памяти	Пропускная способность памяти	VRAM	Single Precision	Double Precision (FP64)	INT8 (без тензорного)	INT8 Tensor	INT32	FP16	FP16 Tensor	bfloat16 Tensor	TensorFloat-32 (TF32) Tensor	FP64 Tensor	Interconnect	GPU	Размер кэша L1	Размер кэша L2	Размер кристалла GPU	Количество транзисторов	TDP	Производственный процесс
Ampere	6912	3456	6912	1410 МГц	2,4 Гбит / с HBM2	5120 бит	1555 ГБ / сек	40 ГБ	19,5 ТФЛОПов	9,7 терафлопс	н / д	624 терафлопса	19,5 терафлопса	78 терафлопс	312 терафлопс	312 терафлопс	156 терафлопс	19,5 терафлопс	600 ГБ / сек	GA100	20736KB (192KBx108)	40960 KB	826mm2	54,2B	400W	TSMC 7 нм N7
Volta	5120	2560	5120	1530 МГц	1,75 Гбит / s HBM2	4096 бит	900 ГБ / сек	16 ГБ / 32 ГБ	15,7 терафлопс	7,8 терафлопс	62 ТОП	Н / Д	15,7 ТОП	31,4 ТФЛОП	125 ТФЛОП	Н / Д	Н / Д	Н / Д	300 ГБ / сек	GV100	10240 КБ (128 КБx80)	6144 КБ	815мм2	21.1B	300W/350W	TSMC 12 нм FFN
Паскаль	3584	1792	Н / Д	1480 МГц	1,4 Гбит / с HBM2	4096 бит	720 ГБ / с	16 ГБ	10,6 терафлопс	5,3 терафлопс	н / д	н / д	н / д	21,2 терафлопс	н / д	н / д	н / д	н / д	160 ГБ / с	GP100	1344 КБ (24 КБ x 56)	4096 КБ	610 мм2	15,3B	300 Вт	TSMC 16 нм FinFET +

Продукты, использующие Ampere

GeForce 30 series
- GeForce RTX 3070 (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3090 (GA102)
Nvidia Quadro
- RTX A6000 (GA102)
Tesla
- RTX A40 (GA102)
- Tesla A100 (GA100)

Ссылки

Внешние ссылки