Teraflops Research Chip

редактировать

Teraflops Research Chip
Общая информация
Запущен	2006
Разработано	Исследовательской программой Intel Tera-Scale Computing Program
Производительность
Макс. ЦП тактовая частота	5,67 ГГц
Разрядность данных	38 бит
Архитектура и классификация
Инструкции	96 бит VLIW
Физические характеристики
Транзисторы	100000000
Ядра	80
Разъем (ы)	индивидуальный 1248-контактный LGA (343 сигнальных контакта)
История
Преемник	Xeon Phi

Intel Teraflops Research Chip (кодовое название Polaris) - это исследовательский многоядерный процессор, содержащий 80 ядер, использующий сеть на кристалле, разработанная в рамках программы компьютерных исследований Intel Tera-Scale. Он был изготовлен с использованием процесса 65 нм CMOS с восемью слоями медного межсоединения и содержит 100 миллионов транзисторов на кристалле диаметром 275 мм. Целью его разработки было продемонстрировать модульную архитектуру, способную обеспечить стабильную производительность 1,0 TFLOPS при рассеивании менее 100 Вт. Исследования, проведенные в рамках проекта, позже были включены в Xeon Phi. Техническим руководителем проекта был Шрирам Р. Вангал.

Процессор был первоначально представлен на форуме разработчиков Intel 26 сентября 2006 г. и официально объявлен 11 февраля 2007 г. Микросхема была представлена на Международной конференции по твердотельным схемам в 2007 г. IEEE вместе с техническими характеристиками.

Содержание

Архитектура

Чип состоит из ячеистой сети 10x8 2D из ядер и номинально работает на частоте 4 ГГц. Каждое ядро, называемое плиткой (3 мм), содержит механизм обработки и 5-портовый маршрутизатор с коммутацией «червоточины» (0,34 мм) с мезохронными интерфейсами с полосой пропускания 80 ГБ. / с и задержкой 1,25 нс на частоте 4 ГГц. Механизм обработки в каждой плитке содержит два независимых 9-ступенчатых конвейера, блока умножения с плавающей запятой одинарной точности (FPMAC), 3 КБ памяти однократных инструкций и 2 КБ памяти данных. Каждый блок FPMAC может выполнять 2 операции с плавающей запятой одинарной точности за цикл. Таким образом, каждая плитка имеет расчетную пиковую производительность 16 GFLOPS при стандартной конфигурации 4 ГГц. 96-битное очень длинное командное слово (VLIW) кодирует до восьми операций за цикл. Пользовательский набор инструкций включает инструкции для отправки и получения пакетов в / из сети микросхемы, а также инструкции для сна и пробуждения конкретной плитки. Под каждой плиткой модуль 256 КБ SRAM (кодовое название Freya) был сложен в трехмерный стек, таким образом приближая память к процессору и увеличивая общую пропускную способность памяти до 1 ТБ / с за счет более высокой стоимости, теплового стресса и задержки, а также небольшой общей емкости 20 МБ. Было показано, что сеть Polaris имеет полосу пропускания пополам 1,6 Тбит / с на 3,16 ГГц и 2,92 Тбит / с на 5,67 ГГц.

Тайловая диаграмма чипа Teraflops Research.

Другие важные особенности чипа Teraflops Research включают его детализированное управление питанием с 21 независимой зоной ожидания на плитке и динамической спящей плиткой, а также очень высокая энергоэффективность с теоретическим пиком 27 гигафлопс / Вт при 0,6 В и фактическим 19,4 гигафлопс / Вт на трафарете при 0,75 В.

Типы команд и их задержка
Тип инструкции	Задержка (циклы)
FPMAC	9
LOAD / STORE	2
SEND / RECEIVE	2
JUMP / BRANCH	1
STALL / WFD	?
SLEEP / WAKE	6

Производительность приложения Teraflops Research Chip
Приложение	$FLOP {\ displaystyle FLOP}$ ${\ displaystyle FLOP}$ count	$TFLOPS avg {\ displaystyle {\ text {TFLOPS}} _ {avg} }$ ${\ displaystyle {\ text {TFLOPS}} _ {avg}}$	$% TFLOPS, пик {\ displaystyle \% {\ text {TFLOPS}} _ {peak}}$ ${\ displaystyle \% {\ text {TFLOPS}} _ {пик}}$	Активные плитки
Stencil	358K	1,00	73,3%	80
SGEMM: Умножение матрицы	2,63M	0,51	37,5%	80
Таблица	64,2K	0,45	33,2 %	80
2D FFT	196K	0,02	2,73%	64

Экспериментальные результаты терафлопс Исследовательский чип
$VCC {\ displaystyle V_ {CC}}$ $V _ {{CC}}$	$fmax {\ displaystyle f_ {max}}$ $f _ {{макс}}$	$пиковое значение TFLOPS {\ displaystyle {\ text {TFLOPS}} _ {peak}}$ ${\ displaystyle {\ text {TFLOPS}} _ {пик}}$	Мощность	$T {\ displaystyle T}$ $T$
0,60 В	1,0 ГГц	0,32 TFLOPS	11 Вт	110 ° C
0,675 В	1,0 ГГц	0,32 TFLOPS	15,6 Вт	80 ° C
0,70 В	1,5 ГГц	0,48 терафлопс	25 Вт	110 ° C
0,70 В	1,35 ГГц	0,43 терафлопс	18 Вт	80 ° C
0,75 В	1,6 ГГц	0,51 терафлопс	21 Вт	80 ° C
0,80 В	2,1 ГГц	0,67 TFLOPS	42 Вт	110 ° C
0,80 В	2,0 ГГц	0,64 терафлопс	26 Вт	80 ° C
0,85 В	2,4 ГГц	0,77 терафлопс	32 Вт	80 ° C
0,90 В	2,6 ГГц	0,83 терафлопс	70 Вт	110 ° C
0,90 В	2,85 ГГц	0,91 терафлопс	45 Вт	80 ° C
0,95 В	3,16 ГГц	1,0 TFLOPS	62 Вт	80 ° C
1,00 В	3,13 ГГц	1,0 терафлопс	98 Вт	110 ° C
1,00 В	3,8 ГГц	1,22 терафлопс	78 Вт	80 ° C
1,05 В	4,2 ГГц	1,34 терафлопс	82 Вт	80 ° C
1,10 В	3,5 ГГц	1,12 TFLOPS	135 Вт	110 ° C
1,10 В	4,5 ГГц	1,44 TFLOPS	105 Вт	80 ° C
1,15 В	4,8 ГГц	1,54 терафлопс	128 Вт	80 ° C
1,20 В	4,0 ГГц	1,28 терафлопс	181 Вт	110 ° C
1,20 В	5,1 ГГц	1,63 терафлопс	152 Вт	80 ° C
1,25 В	5,3 ГГц	1,70 терафлопс	165 W	80 ° C
1,30 В	4,4 ГГц	1,39 TFLOPS	?	110 ° C
1,30 В	5,5 ГГц	1,76 терафлопс	210 Вт	80 ° C
1,35 В	5,67 ГГц	1,81 терафлопс	230 Вт	80 ° C
1,40 В	4,8 ГГц	1,52 терафлопс	?	110 ° C

Проблемы

Intel стремилась помочь в разработке программного обеспечения для новой экзотической архитектуры, создав новую модель программирования, специально для чипа, названную Ct. Модель так и не получила того, на что надеялась Intel, и в конечном итоге была включена в Intel Array Building Blocks, ныне несуществующую библиотеку C ++.

См. Также

Примечания

Ссылки