Bulldozer (микроархитектура)

редактировать
Bulldozer - Family 15h
Общая информация
ЗапущенКонец 2011 г.
Снято с производстваПрисутствует
Стандартный производитель (-ы)
Архитектура и классификация
Мин. размер функции 32 нм
Набор команд x86-64
Физические характеристики
Разъем (ы)
Продукты, модели, варианты
Название ядра (я))
История
ПредшественникСемейство 10h (K10)
ПреемникPiledriver - Семейство 15h (2-го поколения)

AMD Семейство Bulldozer 15h - это микропроцессор микроархитектура для линейки процессоров FX и Opteron, разработанный AMD для настольных компьютеров и серверов. Bulldozer - это кодовое имя для этого семейства микроархитектур. Он был выпущен 12 октября 2011 года как преемник микроархитектуры K10.

Bulldozer разработан с нуля, а не является развитием более ранних процессоров. Ядро специально предназначено для вычислительных устройств с TDP от 10 до 125 Вт. AMD заявляет о значительном повышении эффективности производительности на ватт в приложениях высокопроизводительных вычислений (HPC) с ядрами Bulldozer.

Ядра Bulldozer поддерживают большинство наборов инструкций, реализованных процессорами Intel (Sandy Bridge ), доступными на момент их появления (включая SSE4.1, SSE4.2, AES, CLMUL и AVX ), а также новые наборы инструкций, предложенные AMD; ABM, XOP, FMA4 и F16C. Только Bulldozer GEN4 (Экскаватор ) поддерживает наборы команд AVX2.

Содержание

  • 1 Обзор
  • 2 Архитектура
    • 2.1 Ядро Bulldozer
    • 2.2 Предиктор ветвления
    • 2.3 Расширения набора команд
    • 2.4 Технологический процесс и тактовая частота
    • 2.5 Интерфейс кэш-памяти и памяти
    • 2.6 Ввод / вывод и интерфейс сокета
  • 3 Характеристики
  • 4 Процессора
    • 4.1 Рабочий стол
    • 4.2 Сервер
  • 5 Судебный процесс за ложную рекламу
  • 6 Производительность
    • 6.1 Производительность в Linux
    • 6.2 Производительность в Windows
    • 6.3 Разгон
  • 7 версий
  • 8 См. Также
  • 9 Ссылки
  • 10 Внешние ссылки

Обзор

Согласно AMD, на основе Bulldozer Процессоры основаны на техпроцессе GlobalFoundries '32 нм Кремний на изоляторе (SOI) и повторно используют подход DEC для производительности многозадачного компьютера с аргументами, что он, согласно примечаниям для прессы, «уравновешивает выделенные и общие компьютерные ресурсы, чтобы обеспечить очень компактную конструкцию с большим количеством единиц, которую легко воспроизвести на кристалле для увеличения производительности». Другими словами, устраняя некоторые «избыточные» элементы, которые естественным образом проникают в многоядерные конструкции, AMD надеялась лучше использовать возможности своего оборудования при меньшем потреблении энергии.

Реализации на основе Bulldozer, построенные на 32 нм SOI с HKMG, появились в октябре 2011 года как для серверов, так и для настольных компьютеров. Сегмент серверов включал двухчиповый (16-ядерный) процессор Opteron под кодовым названием Interlagos (для Socket G34 ) и однокристальный (4, 6 или 8 ядер) Valencia (для Socket C32 ), в то время как Zambezi (4, 6 и 8 ядер) нацелены на настольные компьютеры на Socket AM3 +.

Bulldozer - это первая крупная модернизация архитектуры процессоров AMD с 2003 года, когда компания выпустила свои процессоры K8, а также имеет два 128-битных FMA -capable FPU, которые можно объединить в один 256-битный FPU. Этот дизайн сопровождается двумя целочисленными кластерами, каждый с 4 конвейерами (этап выборки / декодирования является общим). Bulldozer также представил в новой архитектуре общий кэш L2. AMD называет эту конструкцию «Модулем». В 16-ядерном процессоре будет восемь таких «модулей», но операционная система распознает каждый «модуль» как два логических ядра.

Модульная архитектура состоит из многопоточного общего кэша L2 и FlexFPU, который использует одновременную многопоточность. Каждое физическое целочисленное ядро, по два на модуль, является однопоточным, в отличие от Intel Hyperthreading, где два виртуальных одновременных потока совместно используют ресурсы одного физического ядра.

Архитектура

Ядро Bulldozer

Блок-схема полного модуля Bulldozer, показывающая 2 целочисленных кластера Блок-схема проекта из 4 модулей с 8 целочисленными кластерами Топология памяти сервера Bulldozer

Bulldozer использовал "Clustered Multithreading" (CMT), метод, при котором некоторые части процессора разделяются между двумя потоками, а некоторые части уникальны для каждого потока. Предыдущие примеры такого подхода к нетрадиционной многопоточности можно проследить еще до ЦП UltraSPARC T1 Sun Microsystems 2005 года. С точки зрения аппаратной сложности и функциональности модуль Bulldozer CMT приравнивается к двухъядерному процессору по своим целочисленным вычислительным возможностям, а также к одноядерному процессору или двухъядерному процессору с ограниченными возможностями с точки зрения вычислительной мощности с плавающей запятой, в зависимости от от того, насыщен ли код инструкциями с плавающей запятой в обоих потоках, выполняемых в одном модуле CMT, и выполняет ли FPU 128-битные или 256-битные операции с плавающей запятой. Причина этого в том, что для каждых двух целочисленных ядер, то есть в пределах одного модуля, есть один блок с плавающей запятой, состоящий из пары 128-битных блоков исполнения FMAC .

CMT - это в некотором роде более простая, но схожая философия дизайна с SMT ; обе конструкции пытаются эффективно использовать исполнительные блоки; в любом методе, когда два потока конкурируют за некоторые конвейеры выполнения, происходит потеря производительности в одном или нескольких потоках. Благодаря выделенным целочисленным ядрам модули семейства Bulldozer работали примерно как двухъядерный двухпоточный процессор во время фрагментов кода, которые были либо полностью целочисленными, либо сочетанием целочисленных вычислений и вычислений с плавающей запятой; тем не менее, из-за использования SMT общих конвейеров с плавающей запятой модуль будет работать аналогично одноядерному двухпоточному процессору SMT (SMT2) для пары потоков, насыщенных командами с плавающей запятой. (Оба последних двух сравнения предполагают, что процессор обладает одинаково широким и мощным исполнительным ядром, соответственно с целочисленным и с плавающей запятой.)

И CMT, и SMT имеют максимальную эффективность, в то время как выполнение целочисленного кода и кода с плавающей запятой в паре потоков. CMT сохраняет максимальную эффективность при работе с парой потоков, состоящих из целочисленного кода, в то время как при SMT один или оба потока будут работать хуже из-за конкуренции за целочисленные исполнительные блоки. Недостатком CMT является большее количество неиспользуемых целочисленных исполнительных блоков в однопоточном случае. В однопоточном случае CMT ограничивается использованием не более половины целочисленных исполнительных единиц в своем модуле, тогда как SMT не налагает такого ограничения. Большое ядро ​​SMT с целочисленной схемой такой же ширины и скорости, как два ядра CMT, теоретически может на мгновение иметь вдвое большую производительность в случае одного потока. (Более реалистично для общего кода в целом, Правило Поллака оценивает коэффициент ускорения в 2 {\ displaystyle {\ sqrt {2}}}{\ sqrt {2}} , или примерно на 40% больше по производительности.)

Процессоры CMT и типичный процессор SMT похожи в их эффективном совместном использовании кэша L2 парой потоков.

  • Модуль состоит из двух "обычных" вышедших из строя вычислительных ядер x86. Ядро обработки разделяет ранние этапы конвейера (например, L1i, выборка, декодирование), FPU и кэш L2 с остальной частью модуля.
    • Каждый модуль имеет следующие независимые аппаратные ресурсы:
    • 16 КБ 4-канального L1d (прогнозируемый) на ядро ​​и 2-канальный 64 КБ L1i на модуль, по одному для каждого из двух ядер
    • 2 МБ кэша L2 на модуль (совместно используется двумя целочисленными ядрами)
    • Кэш объединения записи - это специальный кэш, который является частью кэша L2 в микроархитектуре Bulldozer. Хранилища из обоих кешей L1D в модуле проходят через WCC, где они буферизуются и объединяются. Задача WCC - уменьшить количество операций записи в кэш L2.
    • Два выделенных целочисленных ядра
      • - каждое включает два ALU и два AGU которые способны выполнять в общей сложности четыре независимых арифметических операции и операций с памятью на такт и на каждое ядро ​​
      • - дублирование целочисленных планировщиков и конвейеров выполнения предлагает выделенное оборудование для каждого из двух потоков, что удваивает производительность для многопоточных целочисленных нагрузок
      • - второе целочисленное ядро ​​в модуле увеличивает кристалл модуля Bulldozer примерно на 12%, что на уровне микросхемы добавляет около 5% от общего пространства кристалла.
    • Два симметричных 128-битных FMAC (слитное умножение– добавить возможность ) конвейеров с плавающей запятой на модуль, которые могут быть объединены в один большой 256-битный блок, если одно из целочисленных ядер отправляет инструкцию AVX и два симметричных FPP с поддержкой x87 / MMX / SSE для обратной совместимости с SSE2 non -оптимизированное программное обеспечение. Каждый модуль FMAC также может выполнять операции деления и извлечения квадратного корня с переменной задержкой.
  • Все присутствующие модули совместно используют кэш L3, а также расширенную подсистему двухканальной памяти (IMC - Integrated Memory Controller).
  • Модуль имеет 213 миллионов транзисторов на площади 30,9 мм² (включая 2 МБ общей кэш-памяти L2) на кристалле Orochi.
  • Глубина конвейера Bulldozer (а также Piledriver и Steamroller) составляет 20 циклов, по сравнению с 12 тактами у предшественника ядра K10.

Более длинный конвейер позволил процессорам семейства Bulldozer достичь гораздо более высокой тактовой частоты по сравнению с его предшественниками K10. Хотя это увеличило частоту и пропускную способность, более длинный конвейер также увеличил задержки и увеличил штрафы за неправильное предсказание переходов.

  • Ширина целочисленного ядра Bulldozer, четыре (2 ALU, 2 AGU), несколько меньше ширины ядра K10, шесть (3 ALU, 3 AGU). Bobcat и Jaguar также использовали четыре широких целочисленных ядра, но с более легкими исполнительными блоками: 1 ALU, 1 простой ALU, 1 AGU загрузки, 1 AGU хранения.

Ширина проблемы (и пиковое выполнение инструкций за цикл) Jaguar, K10 и Bulldozer core - 2, 3 и 4 соответственно. Это сделало Bulldozer более суперскалярным по сравнению с Jaguar / Bobcat. Однако из-за несколько более широкого ядра K10 (помимо отсутствия доработок и оптимизаций в конструкции первого поколения) архитектура Bulldozer обычно выполнялась с несколько более низким IPC по сравнению с ее предшественниками K10. И только после улучшений, внесенных в Piledriver и Steamroller, IPC семейства Bulldozer заметно превзошли таковые процессоров K10, таких как Phenom II.

Предиктор переходов
  • Двухуровневый целевой буфер перехода (BTB)
  • Гибридный предиктор для условных выражений
  • Косвенный предиктор

Расширения набора команд

  • Поддержка расширенных векторных расширений Intel (AVX ) набор инструкций, который поддерживает 256-битные операции с плавающей запятой, и SSE4.1, SSE4.2, AES, CLMUL, а также будущие 128-битные наборы инструкций, предложенные AMD (XOP, FMA4 и F16C ), которые имеют та же функциональность, что и набор команд SSE5, ранее предложенный AMD, но с совместимостью со схемой кодирования AVX.
  • Bulldozer GEN4 (Excavator ) поддерживает AVX2 наборы инструкций.

Технологический процесс и тактовая частота

  • 11-металлический слой 32-нм SOI-процесс с реализованным первым поколением GlobalFoundries High-K Metal Gate (HKMG)
  • Повышение производительности Turbo Core 2 для увеличения тактовой частоты до 500 МГц со всеми активными потоками (для большинства orkloads) и до 1 ГГц с активной половиной потока, в пределах предела TDP.
  • Чип работает от 0,775 до 1,425 В, достигая тактовых частот 3,6 ГГц или более
  • Мин. -Максимальный TDP: 25 - 140 Вт

Интерфейс кэш-памяти и памяти

  • До 8 МБ L3, совместно используемого всеми ядрами на одном кремниевом кристалле (8 МБ для 4 ядер в сегменте настольных ПК и 16 МБ для 8 ядер в Серверный сегмент), разделенных на четыре подкэша по 2 МБ каждый, способных работать на частоте 2,2 ГГц при 1,1125 В
  • Собственная Поддержка памяти DDR3 до DDR3-1866
  • Dual Встроенный контроллер памяти DDR3 для настольных ПК и серверов / рабочих станций Opteron 42xx "Valencia"; Четырехканальный интегрированный контроллер памяти DDR3 для сервера / рабочей станции Opteron 62xx «Interlagos»
  • AMD заявляет о поддержке двух модулей DIMM DDR3-1600 на канал. Два модуля DIMM DDR3-1866 на одном канале будут понижены до 1600.

Интерфейс ввода-вывода и сокета

  • HyperTransport Technology rev. 3.1 (3,20 ГГц, 6,4 ГТ / с, 25,6 ГБ / с и 16-разрядная линия связи) [впервые реализовано в HY-D1 версии «Magny-Cours» на платформе Socket G34 Opteron в марте 2010 г. и "Lisbon" на платформе socket C32 Opteron в июне 2010 г.]
  • Socket AM3 + (AM3r2)
    • 942-pin, DDR3 только поддержка
    • Сохранит обратную совместимость с материнскими платами Socket AM3 (согласно выбору производителя материнской платы и при наличии обновлений BIOS), однако официально это не поддерживается AMD; Материнские платы AM3 + будут обратно совместимы с процессорами AM3.
  • Для серверного сегмента будут использоваться существующие socket G34 (LGA1974) и socket C32 (LGA1207).

Характеристики

Таблица характеристик ЦП

Процессоры

Набор микросхем и ввод / вывод для 1-го поколения CMT

7 сентября 2011 года было объявлено о первых прибыльных поставках процессоров Opteron на базе Bulldozer. FX-4100, FX-6100, FX-8120 и FX-8150 были выпущены в октябре 2011 года; с оставшимися процессорами AMD серии FX, выпущенными в конце первого квартала 2012 года.

Настольный компьютер

МодельЯдра / модулиЧастотаМаксимум. turboКэш L2Кэш L3TDPПамятьTurbo CoreSocket
Full нагрузкаПоловинная нагрузка
FX-81008/42,8 ГГц3,1 ГГц3,7 ГГц4 × 2 МБ8 МБ95 ВтDDR3. 1866 МГцДа (2,0)AM3 +
FX-81203,1 ГГц3,4 ГГц4,0 ГГц125 Вт
FX-81403,2 ГГц3,6 ГГц4,1 ГГц95 Вт
FX-81503,6 ГГц3,9 ГГц4,2 ГГц125 Вт
FX-81703,9 ГГц4,2 ГГц4,5 ГГц
FX-61006/33,3 ГГц3,6 ГГц3,9 ГГц3 × 2 МБ95 W
FX-61203,6 ГГц3,9 ГГц4,2 ГГц
FX-61303,6 ГГц3,8 ГГц3,9 ГГц
FX-62003,8 ГГц4,0 ГГц4,1 ГГц125 Вт
FX-41004/23,6 ГГц3,7 ГГц3,8 ГГц2 x 2 МБ95 Вт
FX-41203,9 ГГц4,0 ГГц4,1 ГГц
FX-41303,8 ГГц3,9 ГГц4,0 ГГц4 МБ125 Вт
FX-41503,8 ГГц3,9 ГГц4,0 ГГц8 МБ95/125 Вт
FX-41704,2 ГГц4,3 ГГц4,3 ГГц125 Вт

Основные источники: CPU-World и Xbit-Labs

Сервер

Есть две серии Процессоры на базе Bulldozer для серверов : Opteron серии 4200 (Socket C32, кодовое название Valencia, до четырех модулей) и Opteron 6200 series (Socket G34, кодовое название Interlagos, до 8 модулей).

Иск о ложной рекламе

В ноябре 2015 года против AMD был предъявлен иск в соответствии с Законом о правовой защите потребителей Калифорнии и Закон о недобросовестной конкуренции за якобы искажение технических характеристик микросхем Bulldozer. В коллективном иске, поданном 26 октября в Окружной суд США Северного округа Калифорнии, утверждается, что каждый модуль Bulldozer на самом деле представляет собой одно ядро ​​ЦП с несколькими характеристиками двухъядерности, а не настоящую двухъядерную конструкцию.. В августе 2019 года AMD согласилась урегулировать иск на сумму 12,1 миллиона долларов.

Производительность

Производительность в Linux

24 октября 2011 года тесты первого поколения, проведенные Phoronix подтвердил, что производительность процессора Bulldozer была несколько ниже ожидаемой. Во многих тестах процессор показал себя на том же уровне, что и Phenom 1060T более старого поколения.

Производительность позже существенно увеличилась, поскольку были выпущены различные оптимизации компилятора и исправления драйверов ЦП.

Производительность в Windows

Первые процессоры Bulldozer были встречены неоднозначно. Было обнаружено, что FX-8150 плохо показал себя в тестах, которые не были многопоточными, отставая от процессоров серии Intel Core i * второго поколения и уступая или даже превосходя собственный процессор AMD Phenom II X6 на более низких тактовых частотах. В многопоточных тестах FX-8150 показал себя наравне с Phenom II X6 и Intel Core i7 2600K, в зависимости от теста. Учитывая в целом более стабильную производительность Intel Core i5 2500K при более низкой цене, эти результаты не впечатлили многих обозревателей. Процессор оказался чрезвычайно энергоемким под нагрузкой, особенно при разгоне, по сравнению с Intel Sandy Bridge.

13 октября 2011 года AMD заявила в своем блоге, что «есть некоторые наше сообщество, которое считает, что производительность продукта не соответствует их ожиданиям ", но продемонстрировало тесты для реальных приложений, в которых он превзошел Sandy Bridge i7 2600k и AMD X6 1100T.

В январе 2012 года Microsoft выпустила два исправления для Windows 7 и Server 2008 R2, которые незначительно улучшают производительность процессоров Bulldozer, решая проблемы планирования потоков, возникшие после выпуска Bulldozer.

6 марта 2012 года AMD опубликовала статью в базе знаний, в которой говорилось, что существует проблема совместимости с FX процессоры и некоторые игры на широко используемой платформе распространения цифровых игр Steam. AMD заявила, что предоставила обновление BIOS нескольким производителям материнских плат (а именно: Asus, Gigabyte Technology, MSI и ASRock ), что решит проблему.

В сентябре 2014 года генеральный директор AMD Рори Рид признал, что дизайн Bulldozer не был «деталью, меняющей правила игры», и что AMD пришлось жить с этим дизайном. на четыре года.

Разгон

31 августа 2011 года AMD и группе известных оверклокеров, включая Брайана МакЛахлана, Сами Мякинена, Аарона Шрадина и Саймона Солотко, удалось открыть новый мир рекорд по частоте процессора с использованием неизданного и разогнанного процессора FX-8150 Bulldozer. До этого дня рекорд был равен 8,309 ГГц, но Bulldozer в сочетании с жидким гелием охлаждением достиг нового максимума в 8,429 ГГц. Рекорд с тех пор был побит Андре Янгом на частоте 8,58 ГГц с использованием жидкого азота. 22 августа 2014 года при использовании FX-8370 (Piledriver), The Stilt из Team Finland достиг максимальной частоты процессора 8,722 ГГц.

Revisions

Piledriver - кодовое название AMD для своего улучшенного Микроархитектура второго поколения на базе Bulldozer. Ядра AMD Piledriver находятся в сериях APU и CPU на базе Socket FM2 Trinity и Richland, а также в процессорах серии FX на базе Socket AM3 + Vishera. Piledriver был последним поколением в семействе Bulldozer, которое было доступно для сокета AM3 + и было доступно с кешем L3. Процессоры Piledriver, доступные для сокетов FM2 (и его мобильного варианта), не поставлялись с кешем L3, поскольку кеш L2 является кешем последнего уровня для всех процессоров FM2 / FM2 +.

Steamroller - это кодовое название AMD для микроархитектуры третьего поколения, основанной на улучшенной версии Piledriver. Ядра Steamroller входят в серию APU и CPU на базе Socket FM2 + Kaveri.

Экскаватор - это кодовое название ядра Bulldozer четвертого поколения. Экскаватор был реализован в виде APU Carrizo серии A, APU Bristol Ridge серии A и процессоров Athlon x4.

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-13 05:02:03
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте