Максвелл (микроархитектура)

редактировать

Nvidia Maxwell
История
Дата выпуска	Февраль 2014 года
Процесс изготовления	TSMC 28 нм
Предшественник	Кеплер
Преемник	Паскаль

Maxwell - это кодовое название микроархитектуры графического процессора, разработанной Nvidia в качестве преемника микроархитектуры Kepler. Архитектура Maxwell была введена в более поздних моделях серии GeForce 700, а также используется в серии GeForce 800M, GeForce 900 серии, и Quadro серии MXXX, а также некоторые JETSON продукты, все производимые с TSMC «s 28 нм процесса.

Первыми продуктами на базе Maxwell были GeForce GTX 750 и GeForce GTX 750 Ti. Оба были выпущены 18 февраля 2014 года, оба с кодовым номером чипа GM107. Ранее графические процессоры серии GeForce 700 использовали чипы Kepler с кодовыми номерами G K 1xx. Графические процессоры GM10x также используются в сериях GeForce 800M и Quadro Kxxx. Второе поколение продуктов на базе Maxwell было представлено 18 сентября 2014 г. с GeForce GTX 970 и GeForce GTX 980, за ним последовали GeForce GTX 960 22 января 2015 г., GeForce GTX Titan X 17 марта 2015 г. и GeForce GTX 980 Ti, 1 июня 2015 г. Эти графические процессоры имеют кодовые номера микросхем GM 2 0x.

Максвелл представил улучшенную конструкцию потокового мультипроцессора (SM), которая повысила энергоэффективность, PureVideo HD шестого и седьмого поколений и CUDA Compute Capability 5.2.

Архитектура названа в честь Джеймса Клерка Максвелла, основателя теории электромагнитного излучения.

Архитектура Maxwell используется в системе на кристалле (SOC) процессора мобильных приложений Tegra X1.

СОДЕРЖАНИЕ

1 Maxwell первого поколения (GM10x)
- 1.1 Чипсы
2 Maxwell второго поколения (GM20x)
- 2.1 Чипы
3 Производительность
4 Преемник
5 См. Также
6 Ссылки

Максвелл первого поколения (GM10x)

Чип Maxwell 107 на видеокарте GTX 750 Ti со снятым радиатором.

Графические процессоры Maxwell первого поколения (GM107 / GM108) были выпущены как GeForce GTX 745, GTX 750/750 Ti, GTX 850M / 860M (GM107) и GeForce 830M / 840M (GM108). Эти новые чипы представили несколько дополнительных функций, ориентированных на потребителя, поскольку Nvidia вместо этого сосредоточилась на повышении энергоэффективности графического процессора. Кэш L2 был увеличен с 256 КБ на Kepler до 2 МБ на Maxwell, что снизило потребность в увеличении пропускной способности памяти. Соответственно, шина памяти была уменьшена с 192 бит на Kepler (GK106) до 128 бит, уменьшая площадь кристалла, стоимость и энергопотребление.

Конструкция потокового мультипроцессора «SMX» от Kepler также была переоборудована и разбита на разделы, переименованные в «SMM» для Maxwell. Структура планировщика деформации была унаследована от Kepler, при этом блоки текстуры и ядра FP64 CUDA по-прежнему были общими, но расположение большинства исполнительных блоков было разделено так, что каждый планировщик деформации в SMM контролирует один набор из 32 ядер FP32 CUDA, один набор из 8 блоков загрузки / хранения и одного набора из 8 блоков специальных функций. Это контрастирует с Kepler, где у каждого SMX было 4 планировщика, которые были запланированы для общего пула исполнительных модулей. Последнее потребовало наличия поперечной панели SMX, которая потребляла ненужную мощность, чтобы все исполнительные блоки могли использоваться совместно. И наоборот, более модульная конструкция Maxwell позволяет более детально и эффективно распределять ресурсы, экономя электроэнергию, когда рабочая нагрузка не оптимальна для общих ресурсов. Nvidia утверждает, что SMM со 128 ядрами CUDA имеет 90% производительности SMX со 192 ядрами CUDA, в то время как эффективность увеличивается в 2 раза. Кроме того, каждый кластер обработки графики, или GPC, содержит до 4 модулей SMX в Kepler и до 5 отрядов СММ в Maxwell первого поколения.

GM107 также поддерживает CUDA Compute Capability 5.0 по сравнению с 3.5 на графических процессорах GK110 / GK208 и 3.0 на графических процессорах GK10x. Динамический параллелизм и HyperQ, две функции графических процессоров GK110 / GK208, также поддерживаются всей линейкой продуктов Maxwell. Maxwell также предоставляет атомарные операции с собственной общей памятью для 32-разрядных целых чисел и 32-разрядные и 64-разрядные атомарные операции с общей памятью (CAS), которые можно использовать для реализации других атомарных функций.

Видеокодер Nvidia, NVENC, был обновлен и теперь работает в 1,5–2 раза быстрее, чем на графических процессорах на базе Kepler, что означает, что он может кодировать видео со скоростью воспроизведения в 6–8 раз. Nvidia также заявляет о восьми-десятикратном увеличении производительности декодирования видео PureVideo Feature Set E за счет кеша видеодекодера в сочетании с повышением эффективности памяти. Однако H.265 не поддерживается для полного аппаратного декодирования в графических процессорах Maxwell первого поколения, полагаясь на сочетание аппаратного и программного декодирования. При декодировании видео на графических процессорах Maxwell используется новое состояние низкого энергопотребления «GC5» для экономии энергии.

Считалось, что графические процессоры Maxwell используют тайловый рендеринг, но на самом деле они используют тайловое кэширование.

Чипсы

GM107
GM108

Максвелл второго поколения (GM20x)

Снимок графического процессора GM200 внутри видеокарт GeForce GTX 980 Ti

Графические процессоры Maxwell второго поколения представили несколько новых технологий: динамическое суперразрешение, сжатие дельта-цветов третьего поколения, многопиксельная программная выборка, Nvidia VXGI (Real-Time-Voxel- Global Illumination ), VR Direct, Multi-Projection Acceleration, Multi-Frame Sampled Сглаживание (MFAA) (однако поддержка сглаживания выборки покрытия (CSAA) была удалена) и API Direct3D12 на уровне функций 12_1. Также была добавлена поддержка HDMI 2.0.

Соотношение ROP к контроллеру памяти было изменено с 8: 1 на 16: 1. Однако некоторые из ROP обычно простаивают в GTX 970, потому что не хватает задействованных SMM, чтобы дать им работу, что снижает его максимальную скорость заполнения.

Модуль Polymorph Engine, отвечающий за тесселяцию, был обновлен до версии 3.0 в графических процессорах Maxwell второго поколения, что привело к повышению производительности тесселяции на единицу / такт.

Maxwell второго поколения также имеет до 4 модулей SMM на GPC, по сравнению с 5 модулями SMM на GPC.

GM204 поддерживает CUDA Compute Capability 5.2 (по сравнению с 5.0 на графических процессорах GM107 / GM108, 3.5 на графических процессорах GK110 / GK208 и 3.0 на графических процессорах GK10x).

Графические процессоры GM20x имеют обновленный NVENC, который поддерживает кодирование HEVC и добавляет поддержку разрешений кодирования H.264 при 1440p / 60FPS и 4K / 60FPS (по сравнению с NVENC на графических процессорах Maxwell GM10x первого поколения, которые поддерживали только кодирование H.264 1080p / 60FPS).

После жалоб потребителей Nvidia показала, что может отключать отдельные блоки, каждый из которых содержит 256 КБ кеш-памяти L2 и 8 ROP, без отключения всех контроллеров памяти. Это происходит за счет разделения шины памяти на высокоскоростные и низкоскоростные сегменты, к которым нельзя получить доступ одновременно для чтения, поскольку блок L2 / ROP, управляющий обоими контроллерами GDDR5, совместно использует канал возврата чтения и шину данных записи. между контроллерами GDDR5. Это делает невозможным одновременное чтение с обоих контроллеров GDDR5 или одновременную запись на оба контроллера GDDR5. Это используется в GeForce GTX 970, которая, следовательно, может быть описана как имеющая 3,5 ГБ в высокоскоростном сегменте на 224-битной шине и 512 МБ в низкоскоростном сегменте на 32-битной шине. Пиковая скорость такого графического процессора все еще может быть достигнута, но показатель максимальной скорости доступен только в том случае, если один сегмент выполняет операцию чтения, а другой сегмент выполняет операцию записи.

Чипсы

GM200
GM204
GM206

Представление

Теоретическая мощность обработки одинарной точности графического процессора Maxwell в FLOPS вычисляется как 2 (операций на инструкцию FMA на ядро CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в Гц).

Теоретическая мощность обработки с двойной точностью графического процессора Maxwell составляет 1/32 от производительности с одинарной точностью (которая была отмечена как очень низкая по сравнению с Kepler предыдущего поколения).

Преемник

Преемник Максвелла носит кодовое имя Паскаль. Архитектура Pascal отличается объединенной памятью с более высокой пропускной способностью и NVLink.

Смотрите также

Рекомендации