Гиперпоточность (официально называемая технологией Hyper-Threading или HT и сокращенно HTT или HT) - это запатентованная Intel реализация одновременной многопоточности (SMT), используемая для улучшения распараллеливания вычислений (выполнения нескольких задач одновременно), выполняемых на микропроцессорах x86. Она была представлена на серверных процессорах Xeon в феврале 2002 года и на процессорах Pentium 4 для настольных ПК в ноябре 2002 года. С тех пор Intel включила эту технологию, в частности, в процессоры серий Itanium, Atom и Core i.
Для каждого физически присутствующего ядра процессора операционная система обращается к двум виртуальным (логическим) ядрам и по возможности распределяет рабочую нагрузку между ними. Основная функция гиперпоточности - увеличение количества независимых инструкций в конвейере; он использует преимущества суперскалярной архитектуры, в которой несколько инструкций работают с отдельными данными параллельно. В HTT одно физическое ядро отображается в операционной системе как два процессора, что позволяет одновременно планировать два процесса на каждое ядро. Кроме того, два или более процессов могут использовать одни и те же ресурсы: если ресурсы для одного процесса недоступны, то другой процесс может продолжить работу, если его ресурсы доступны.
Помимо необходимости одновременной поддержки многопоточности в операционной системе, гиперпоточность может быть правильно использована только с операционной системой, специально оптимизированной для этого.
Технология Hyper-Threading - это форма технологии одновременной многопоточности, представленная Intel, а концепция, лежащая в основе этой технологии, запатентована Sun Microsystems. Архитектурно процессор с технологией Hyper-Threading состоит из двух логических процессоров на ядро, каждое из которых имеет собственное архитектурное состояние процессора. Каждый логический процессор может быть индивидуально остановлен, прерван или направлен на выполнение указанного потока независимо от другого логического процессора, использующего то же физическое ядро.
В отличие от традиционной двухпроцессорной конфигурации, в которой используются два отдельных физических процессора, логические процессоры в гиперпоточном ядре совместно используют ресурсы выполнения. Эти ресурсы включают механизм выполнения, кеши и интерфейс системной шины; совместное использование ресурсов позволяет двум логическим процессорам работать друг с другом более эффективно и позволяет логическому процессору заимствовать ресурсы из остановленного логического ядра (при условии, что оба логических ядра связаны с одним и тем же физическим ядром). Процессор останавливается, когда ожидает данных, которые он отправил, чтобы он мог завершить обработку текущего потока. Степень выгоды от использования многопоточного или многоядерного процессора зависит от потребностей программного обеспечения и от того, насколько хорошо оно и операционная система написаны для эффективного управления процессором.
Гиперпоточность работает путем дублирования определенных секций процессора - тех, которые хранят архитектурное состояние - но не дублирует основные ресурсы выполнения. Это позволяет гиперпоточному процессору выглядеть как обычный «физический» процессор и дополнительный « логический » процессор для операционной системы хоста (операционные системы, не поддерживающие HTT, видят два «физических» процессора), позволяя операционной системе планировать два потока. или обрабатывает одновременно и надлежащим образом. Когда ресурсы выполнения не будут использоваться текущей задачей в процессоре без гиперпоточности, и особенно когда процессор остановлен, процессор, оснащенный гиперпоточностью, может использовать эти ресурсы исполнения для выполнения другой запланированной задачи. (Процессор может остановиться из-за промаха кэша, неправильного предсказания ветвления или зависимости данных. )
Эта технология прозрачна для операционных систем и программ. Минимум, который требуется для использования преимуществ гиперпоточности, - это поддержка симметричной многопроцессорной обработки (SMP) в операционной системе, поскольку логические процессоры выглядят как стандартные отдельные процессоры.
Можно оптимизировать поведение операционной системы в многопроцессорных системах с поддержкой гиперпоточности. Например, рассмотрим систему SMP с двумя физическими процессорами, которые являются гиперпоточными (всего четыре логических процессора). Если планировщик потоков операционной системы не знает о гиперпоточности, он будет обрабатывать все четыре логических процессора одинаково. Если только два потока могут выполняться, он может запланировать эти потоки на двух логических процессорах, которые принадлежат одному и тому же физическому процессору; этот процессор будет чрезвычайно загружен, в то время как другой будет бездействовать, что приведет к снижению производительности, чем это возможно при планировании потоков на разных физических процессорах. Этой проблемы можно избежать, улучшив планировщик, чтобы обрабатывать логические процессоры иначе, чем физические процессоры; в некотором смысле это ограниченная форма изменений планировщика, необходимых для систем NUMA.
Первая опубликованная статья, описывающая то, что сейчас известно как гиперпоточность в компьютере общего назначения, была написана Эдвардом С. Дэвидсоном и Леонардом. Э. Шар в 1973 году.
Компания Denelcor, Inc. представила многопоточность с процессором гетерогенных элементов (HEP) в 1982 году. Конвейер HEP не мог содержать несколько инструкций из одного процесса. Только одна инструкция из данного процесса могла присутствовать в конвейере в любой момент времени. Если инструкция от данного процесса блокирует конвейер, инструкции от других процессов будут продолжены после того, как конвейер будет опорожнен.
Патент США на технологию, лежащую в основе гиперпоточности, был выдан Кеннету Окину из Sun Microsystems в ноябре 1994 года. В то время технологический процесс CMOS не был достаточно продвинутым, чтобы обеспечить рентабельную реализацию.
Intel реализовала гиперпоточность на процессоре архитектуры x86 в 2002 году с Xeon на базе Foster MP. В том же году он также был включен в процессоры Pentium 4 на базе 3,06 ГГц Northwood, а с тех пор оставался в качестве функции каждого процессора Pentium 4 HT, Pentium 4 Extreme Edition и Pentium Extreme Edition. Линейки процессоров Intel Core и Core 2 (2006 г.), пришедшие на смену модельной линейке Pentium 4, не использовали гиперпоточность. Процессоры на основе микроархитектуры Core не имели гиперпоточности, поскольку микроархитектура Core была потомком более старой микроархитектуры P6. Микроархитектура P6 использовалась в более ранних итерациях процессоров Pentium, а именно Pentium Pro, Pentium II и Pentium III (плюс их производные Celeron и Xeon в то время).
Intel выпустила микроархитектуру Nehalem (Core i7) в ноябре 2008 года, в которой гиперпоточность вернулась. Процессоры Nehalem первого поколения содержали четыре физических ядра и эффективно масштабировались до восьми потоков. С тех пор были выпущены как двух-, так и шестиядерные модели с масштабированием четырех и двенадцати потоков соответственно. Раньше ядра Intel Atom были штатными процессорами, иногда с возможностью гиперпоточности, для мобильных ПК с низким энергопотреблением и недорогих настольных ПК. Itanium 9300 начал с восьми потоков на процессор (два потока на ядро) на основе усовершенствованной технологии Hyper-Threading. Следующая модель, Itanium 9500 (Poulson), имеет 12-разрядную архитектуру с восемью ядрами ЦП с поддержкой еще восьми виртуальных ядер через гиперпоточность. Серверные чипы Intel Xeon 5500 также используют двустороннюю гиперпоточность.
По данным Intel, первая реализация гиперпоточности использовала только на 5% больше площади кристалла, чем сопоставимый процессор без гиперпотоков, но производительность была на 15–30% лучше. Intel заявляет об улучшении производительности до 30% по сравнению с идентичным в остальном, неодновременным многопоточным Pentium 4. Tom's Hardware заявляет: «В некоторых случаях P4, работающий на 3,0 ГГц с включенным HT, может даже превзойти P4, работающий на 3,6 ГГц с HT. выключено." Intel также заявляет о значительном улучшении производительности процессора Pentium 4 с поддержкой гиперпоточности в некоторых алгоритмах искусственного интеллекта.
В целом история производительности гиперпоточности вначале была неоднозначной. В одном из комментариев к высокопроизводительным вычислениям от ноября 2002 г. отмечается:
Hyper-Threading может улучшить производительность некоторых приложений MPI, но не всех. В зависимости от конфигурации кластера и, что наиболее важно, от характера приложения, работающего в кластере, прирост производительности может варьироваться или даже быть отрицательным. Следующим шагом является использование инструментов производительности, чтобы понять, какие области способствуют увеличению производительности, а какие - снижению производительности.
В результате улучшения производительности сильно зависят от приложения; однако при запуске двух программ, требующих полного внимания процессора, может показаться, что одна или обе программы немного замедляются при включении технологии Hyper-Threading. Это связано с тем, что система воспроизведения Pentium 4 связывает ценные ресурсы выполнения, выравнивая ресурсы процессора между двумя программами, что добавляет различное время выполнения. Процессоры Pentium 4 «Prescott» и Xeon «Nocona» получили очередь воспроизведения, которая сокращает время выполнения, необходимое для системы воспроизведения, и полностью преодолевает снижение производительности.
Согласно анализу Intel, проведенному в ноябре 2009 г., влияние гиперпоточности на производительность приводит к увеличению общей задержки в случае, если выполнение потоков не приводит к значительному увеличению общей пропускной способности, которое зависит от приложения. Другими словами, общая задержка обработки значительно увеличивается из-за гиперпоточности, при этом отрицательные эффекты становятся меньше, поскольку существует больше одновременных потоков, которые могут эффективно использовать дополнительное использование аппаратных ресурсов, обеспечиваемое гиперпоточностью. Аналогичный анализ производительности доступен для эффектов гиперпоточности при использовании для обработки задач, связанных с управлением сетевым трафиком, например для обработки запросов прерывания, генерируемых контроллерами сетевого интерфейса (NIC). В другом документе не говорится об улучшении производительности при использовании гиперпоточности для обработки прерываний.
Когда были выпущены первые процессоры HT, многие операционные системы не были оптимизированы для технологии Hyper-Threading (например, Windows 2000 и Linux старше 2.4).
В 2006 году гиперпоточность критиковалась за неэффективность энергопотребления. Например, компания ARM, специализирующаяся на разработке процессоров с низким энергопотреблением, заявила, что одновременная многопоточность может потреблять на 46% больше энергии, чем обычные двухъядерные конструкции. Кроме того, они утверждали, что SMT увеличивает перегрузку кеш-памяти на 42%, тогда как двухъядерный процессор приводит к снижению на 37%.
В 2010 году ARM заявила, что может включить одновременную многопоточность в свои будущие чипы; однако это было отклонено в пользу их 64-битной архитектуры 2012 года.
В 2013 году Intel отказалась от SMT в пользу неупорядоченного выполнения для своих процессорных ядер Silvermont, поскольку они обнаружили, что это дает лучшую производительность с лучшей энергоэффективностью, чем меньшее количество ядер с SMT.
В 2017 году выяснилось, что процессоры Intel Skylake и Kaby Lake имели ошибку при реализации гиперпоточности, которая могла вызвать потерю данных. Позднее были выпущены обновления микрокода для решения этой проблемы.
В 2019 году, с появлением Coffee Lake, Intel начала отходить от включения гиперпоточности в основные процессоры Core i7 для настольных ПК, за исключением компонентов Core i9 высшего класса или процессоров Pentium Gold. Он также начал рекомендовать отключить гиперпоточность, поскольку были обнаружены новые атаки уязвимости ЦП, которые можно было смягчить, отключив HT.
В мае 2005 года Колин Персиваль продемонстрировал, что вредоносный поток на Pentium 4 может использовать атаку побочного канала на основе времени для отслеживания шаблонов доступа к памяти другого потока, с которым он совместно использует кэш, что позволяет кражу криптографической информации. На самом деле это не временная атака, поскольку вредоносный поток измеряет время только своего собственного выполнения. Возможные решения этой проблемы включают изменение процессором стратегии вытеснения кэша или предотвращение операционной системой одновременного выполнения на одном физическом ядре потоков с разными привилегиями. В 2018 году операционная система OpenBSD отключила гиперпоточность «во избежание утечки данных из приложений в другое программное обеспечение», вызванной уязвимостями Foreshadow / L1TF. В 2019 году ряд уязвимостей привел к тому, что эксперты по безопасности рекомендовали отключить гиперпоточность на всех устройствах.