R10000

редактировать
Микропроцессор MIPS NEC VR10000.

R10000 с кодовым названием «T5» - это микропроцессорная реализация RISC архитектуры набора команд MIPS IV (ISA), разработанная MIPS Technologies, Inc. (MTI), затем подразделение Silicon Graphics, Inc. (SGI). Главные дизайнеры - Крис Роуэн и Кеннет С. Йегер. Микроархитектура R10000 известна как ANDES, сокращение от «Архитектура с непоследовательным динамическим планированием выполнения». R10000 в значительной степени заменяет R8000 в high-end и R4400 где-то еще. MTI была полупроводниковой компанией без фабрик ; R10000 был изготовлен NEC и Toshiba. Предыдущие производители микропроцессоров MIPS, такие как Integrated Device Technology (IDT) и три других, не производили R10000, поскольку это было дороже, чем R4000 и R4400.

Содержание

  • 1 История
  • 2 Пользователи
  • 3 Описание
    • 3.1 Целочисленный блок
    • 3.2 Блок с плавающей точкой
    • 3.3 Кэши
    • 3.4 Адресация
    • 3.5 Системная шина Avalanche
    • 3.6 Производство
  • 4 Производные
    • 4.1 R12000
    • 4.2 R12000A
    • 4.3 R14000
    • 4.4 R14000A
    • 4.5 R16000
    • 4.6 R16000A
    • 4.7 R18000
  • 5 Примечания
  • 6 Ссылки

История

R10000 был представлен в январе 1996 года с тактовыми частотами 175 МГц и 195 МГц. Версия на 150 МГц была представлена ​​в линейке продуктов O2 в 1997 году, но вскоре после этого была прекращена из-за того, что покупатели предпочли версию на 175 МГц. R10000 не был доступен в больших количествах до конца года из-за производственных проблем на литейных заводах MIPS. Версия 195 МГц была в дефиците в течение 1996 года, и в результате она была оценена в 3000 долларов США.

25 сентября 1996 года SGI объявила, что R10000, изготовленные NEC с марта по конец июля того же года, были неисправны., потребляя слишком большой ток и вызывая отключение системы во время работы. SGI отозвала 10 000 R10000, которые были поставлены в системах, что повлияло на прибыль компании.

В 1997 году версия R10000, изготовленная по технологии 0,25 мкм, позволила микропроцессору достичь 250 МГц.

Пользователи

Пользователи R10000 включают:

Описание

NEC VR10000: штамповка.

R10000 - четырехпозиционный суперскалярная конструкция, которая реализует переименование регистров и выполняет инструкции вне очереди. Его конструкция отличается от предыдущих микропроцессоров MTI, таких как R4000, который представляет собой гораздо более простую схему скалярной упорядоченной, которая в значительной степени полагается на высокие тактовые частоты для обеспечения производительности.

R10000 извлекает четыре инструкции каждый цикл из своего кэша инструкций . Эти инструкции декодируются и затем помещаются в целочисленные, с плавающей запятой или очереди инструкций загрузки / сохранения в зависимости от типа инструкции. Блоку декодирования помогают предварительно декодированные инструкции из кэша инструкций, которые добавляют пять битов к каждой инструкции, чтобы позволить блоку быстро определить, в каком исполнительном блоке выполняется инструкция, и изменить формат инструкции для оптимизации декодирования. процесс.

Каждая из очередей инструкций может принимать до четырех инструкций от декодера, избегая любых узких мест. Очереди инструкций выдают свои инструкции своим исполнительным блокам динамически в зависимости от доступности операндов и ресурсов. Каждая из очередей, за исключением очереди загрузки / сохранения, может выдавать до двух инструкций каждый цикл своим исполнительным блокам. Очередь загрузки / сохранения может выдавать только одну инструкцию. Таким образом, R10000 может выдавать до пяти инструкций за каждый цикл.

Целочисленный блок

Целочисленный блок состоит из целочисленного регистрового файла и трех конвейеров , двух целочисленных, одного загрузочного хранилища. Целочисленный регистровый файл имеет ширину 64 бита и содержит 64 записи, из которых 32 являются регистрами архитектуры, а 32 - регистрами переименования, реализующими переименование регистров. Регистровый файл имеет семь портов чтения и три порта записи. Оба целочисленных конвейера имеют сумматор и логический блок. Однако только первый конвейер имеет устройство сдвига баррель и оборудование для подтверждения предсказания условных переходов. Второй конвейер используется для доступа к множителю и делителю. Умножения являются конвейерными и имеют задержку в шесть циклов для 32-битных целых чисел и десять для 64-битных целых чисел. Разделение не конвейерное. В делителе используется алгоритм без восстановления, вырабатывающий один бит за цикл. Задержки для 32-битных и 64-битных делений составляют 35 и 67 циклов соответственно.

Блок с плавающей запятой

Блок с плавающей запятой (FPU) состоит из четырех функциональных блоков, сумматора, умножителя, блока деления и блока квадратного корня. Сумматор и умножитель конвейерные, а единицы деления и квадратного корня - нет. Задержка сложения и умножения составляет три цикла, а сумматор и умножитель могут принимать новую инструкцию каждый цикл. Блок деления имеет задержку в 12 или 19 циклов, в зависимости от того, является ли деление одинарной или двойной точностью, соответственно.

Устройство извлечения квадратного корня выполняет инструкции извлечения квадратного корня и обратного квадратного корня. Инструкции извлечения квадратного корня имеют задержку в 18 или 33 цикла для одинарной или двойной точности соответственно. Новая команда извлечения квадратного корня может быть выдана блоку деления каждые 20 или 35 циклов для одинарной и двойной точности соответственно. Обратные квадратные корни имеют большую задержку, от 30 до 52 циклов для одинарной точности (32-бит) и двойной точности (64-бит) соответственно.

Файл регистров с плавающей запятой содержит шестьдесят четыре 64-битных регистра, из которых тридцать два являются архитектурными, а остальные - регистрами переименования. Сумматор имеет свои собственные выделенные порты чтения и записи, тогда как умножитель делит их с делителем и единицей квадратного корня.

В единицах деления и извлечения квадратного корня используется алгоритм SRT. MIPS IV ISA имеет команду умножения-сложения. Эта инструкция реализована R10000 с обходом - результат умножения может обойти регистровый файл и быть доставлен в конвейер сложения в качестве операнда, таким образом, это не объединенное умножение – сложение, и задержка в четыре цикла.

Кэши

R10000 имеет два сравнительно больших кэша на кристалле, кэш инструкций 32 КБ и кэш данных 32 КБ. Кэш инструкций является двусторонним ассоциативным по множеству и имеет размер строки 128 байт. Инструкции частично декодируются путем добавления четырех битов к каждой инструкции (которые имеют длину 32 бита) перед помещением в кэш.

Кэш данных 32 КБ имеет двойной порт с двусторонним чередованием. Он состоит из двух банков по 16 КБ , каждый из которых является двусторонним ассоциативным. Кэш имеет 64-байтовые строки, использует протокол обратной записи и виртуально индексирован и физически помечен тегами, чтобы можно было индексировать кеш в одном тактовом цикле и поддерживать согласованность с вторичным кешем.

Внешний вторичный унифицированный кэш поддерживает емкость от 512 КБ до 16 МБ. Он реализован с помощью обычных синхронных статических запоминающих устройств с произвольным доступом (SSRAM). Доступ к кешу осуществляется через его собственную 128-битную шину, которая защищена 9-битным кодом исправления ошибок (ECC). Кэш и шина работают с той же тактовой частотой, что и R10000, максимальная частота которого составляла 200 МГц. На частоте 200 МГц шина дала пиковую пропускную способность 3,2 ГБ / с. Кэш является двусторонним ассоциативным, но, чтобы избежать большого количества выводов, R10000 предсказывает, к какому пути осуществляется доступ.

Адресация

MIPS IV - это 64-битная архитектура, но для снижения стоимости R10000 не реализует весь физический или виртуальный адрес. Вместо этого он имеет 40-битный физический адрес и 44-битный виртуальный адрес, таким образом, он может адресовать 1 ТБ физической памяти и 16 ТБ виртуальной памяти..

Системная шина Avalanche

R10000 использует 64-битную шину, которая работает на частотах до 100 МГц. Avalanche - это мультиплексированный адрес и шина данных, поэтому на частоте 100 МГц максимальная теоретическая пропускная способность составляет 800 МБ / с, но пиковая пропускная способность составляет 640 МБ / с, поскольку для передачи адресов требуется несколько циклов.

Контроллер системного интерфейса поддерживает бесклеевую симметричную многопроцессорную обработку (SMP) до четырех микропроцессоров. Системы, использующие R10000 с внешней логикой, могут масштабироваться до сотен процессоров. Примером такой системы является Origin 2000.

Производство

R10000 состоит примерно из 6,8 миллионов транзисторов, из которых примерно 4,4 миллиона содержатся в первичных кэшах. Размер матрицы составляет 16,640 на 17,934 мм, площадь матрицы - 298,422 мм. Он изготовлен по технологии 0,35 мкм и упакован в керамическую решетку с 599 контактными площадками (LGA). Перед тем, как R10000 был представлен, в Microprocessor Report, посвященном Microprocessor Forum 1994, сообщалось, что он был упакован в керамическую решетчатую матрицу с 527 выводами (CPGA); и что поставщики также исследовали возможность использования 339-контактного многокристального модуля (MCM), содержащего кристалл микропроцессора и 1 МБ кэш-памяти.

Производные

R10000 был расширен несколькими последовательными производными. У всех производных после R12000 тактовая частота поддерживается на минимально возможном уровне для поддержания рассеиваемой мощности в диапазоне от 15 до 20 Вт, поэтому они могут быть плотно упакованы в системы SGI высокопроизводительных вычислений (HPC).

R12000

Штамп NEC VR12000.

R12000 является производным от R10000, запущенного MIPS и завершенного SGI. Его изготовили NEC и Toshiba. Версия, изготовленная NEC, называется VR12000. Микропроцессор был представлен в ноябре 1998 года. Он доступен на частотах 270, 300 и 360 МГц. R12000 был разработан как временное решение после отмены проекта «Зверь», который намеревался поставить преемника R10000. Пользователи R12000 включают NEC, Siemens-Nixdorf, SGI и Tandem Computers (а затем Compaq, после приобретения Tandem).

R12000 улучшает микроархитектуру R10000 за счет: вставки дополнительного конвейерного каскада для повышения тактовой частоты за счет разрешения критического пути; увеличение количества записей в таблице истории переходов, улучшение прогнозирования; изменение очередей инструкций, чтобы они учитывали возраст поставленных в очередь инструкций, позволяя, если возможно, выполнять старые инструкции раньше, чем новые.

R12000 был изготовлен NEC и Toshiba по технологии CMOS 0,25 мкм с четырьмя уровнями алюминиевого межсоединения. Новое использование нового процесса не означает, что R12000 был простым усадочным штампом с измененной микроархитектурой; компоновка матрицы оптимизирована для использования технологического процесса 0,25 мкм. Изготовленная NEC VR12000 содержала 7,15 миллиона транзисторов и имела размеры 15,7 на 14,6 мм (229,22 мм).

R12000A

R12000A является производным от R12000, разработанного SGI. Представленный в июле 2000 года, он работает на частоте 400 МГц и был изготовлен NEC по технологии 0,18 мкм из алюминиевых межсоединений.

R14000

R14000 является дальнейшим развитием R12000, анонсированного в июле 2001 года. R14000 работает на частоте 500 МГц, что обеспечивается процессом КМОП 0,13 мкм с пятью уровнями медного межсоединения, из которого он изготовлен. В нем улучшена микроархитектура R12000 за счет поддержки SSRAM с удвоенной скоростью передачи (DDR) для вторичного кэша и системной шины 200 МГц.

R14000A

R14000A является дальнейшим развитием R14000, анонсированного в феврале 2002 года. Он работает на частоте 600 МГц, рассеивает около 17 Вт и был изготовлен NEC Corporation по технологии CMOS 0,13 мкм с семью уровнями медных соединений.

R16000

R16000 с кодовым названием «N0» является последней производной от R10000. Он разработан SGI и изготовлен NEC по технологии 0,11 мкм с восемью уровнями медных межсоединений. Микропроцессор был представлен 9 января 2003 года, дебютировав на частоте 700 МГц для Fuel, а также использовался в их. В апреле 2003 года была представлена ​​версия 600 МГц для Origin 350. Улучшения - это кеши инструкций и данных размером 64 КБ.

R16000A

R16000A относится к микропроцессорам R16000 с тактовой частотой выше 700 МГц. Первый R16000A - это версия 800 МГц, представленная 4 февраля 2004 года. Позже была представлена ​​версия 900 МГц, и в течение некоторого времени эта версия была самым быстрым из публично известных R16000A - позже SGI сообщила, что для избранных поставлялись R16000 с частотой 1,0 ГГц. клиентов. Среди пользователей R16000 были HP и SGI. SGI использовала микропроцессор на своих рабочих станциях Fuel и Tezro ; и серверы и суперкомпьютеры Origin 3000. HP использовала R16000A в своих отказоустойчивых серверах NonStop Himalaya S-Series, унаследованных от Tandem через Compaq.

R18000

R18000 - это отмененное дальнейшее развитие микроархитектуры R10000, в котором были внесены значительные улучшения Silicon Graphics, Inc., описанные на симпозиуме Hot Chips в 2001 году. R18000 был разработан специально для серверов и суперкомпьютеров SGI ccNUMA. Каждый узел будет иметь два R18000, подключенных через мультиплексированную шину к системному контроллеру, который будет связывать микропроцессоры с их локальной памятью и остальной системой через сеть гиперкуба.

В R18000 улучшены очереди команд с плавающей запятой и переработан модуль с плавающей запятой, чтобы иметь два модуля умножения-сложения, что в четыре раза увеличивает максимальное количество FLOPS. Деление и извлечение квадратного корня будут выполняться в отдельных неконвейерных модулях параллельно модулям умножения и сложения. Системный интерфейс и иерархия памяти также были существенно переработаны. У него будет 52-битный виртуальный адрес и 48-битный физический адрес. Двунаправленная мультиплексированная системная шина адреса и данных в более ранних моделях будет заменена двумя однонаправленными каналами DDR, 64-битным мультиплексированным адресом и путем записи и 128-битным путем чтения. Пути можно использовать совместно с другим R18000 посредством мультиплексирования. Шину также можно настроить в конфигурации SysAD или Avalanche для обратной совместимости с системами R10000.

R18000 будет иметь четырехсторонний ассоциативный вторичный кэш объемом 1 МБ, который должен быть встроен в кристалл; дополняется дополнительным третичным кешем, созданным из SSRAM с одинарной или двойной скоростью передачи данных (SDR) или DDR SDRAM емкостью от 2 до 64 МБ. Кэш-память L3 будет иметь свои теги кэша, эквивалентные 400 КБ, расположенные на кристалле, чтобы уменьшить задержку. Доступ к кеш-памяти L3 будет осуществляться через 144-битную шину, из которых 128 бит предназначены для данных, а 16 бит - для ECC. Тактовая частота кэша L3 может быть программируемой.

R18000 должен был быть изготовлен по технологии NEC UX5, 0,13 мкм КМОП-технологии с девятью уровнями медного межсоединения. Он использовал бы источник питания 1,2 В и рассеивал меньше тепла, чем современные серверные микропроцессоры, чтобы быть плотно упакованными в системы.

Примечания

Ссылки

Последняя правка сделана 2021-06-03 04:02:46
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте