Включен ли hyper threading. Технология Intel Hyper-Threading — что это и как работает

10 227 руб.

Материнская плата ASUS PRIME Z370-A II

Разъем питания процессора - 8-pin. С контроллером SATA. Формфактор - ATX. С поддержкой Hyper-Threading . Socket - LGA1151. Звук - HDA. Количество разъемов SATA 6Gb/s 6 шт. С поддержкой SLI/CrossFire. Общее количество интерфейсов USB 14 шт. BIOS - AMI. Производитель чипсета - Intel. Тип памяти - DDR4. С поддержкой режима SATA RAID. Количество слотов памяти - 4. С разъемом HDMI на задней панели. С двухканальным режимом памяти. С контроллером Ethernet. Количество слотов PCI-E 7 шт. С DVI-выходом на задней панели. Максимальный объем памяти 64 ГБ. Со встроенной графикой. Основной разъем питания - 24-pin.

купить в интернет-магазине Плеер.Ру

возможен кредит | возможен самовывоз

видеообзор фото

16 960 руб.

Intel Материнская плата MSI X299 RAIDER (S2066, X299, 8*DDR4, 4*PCI-E16x, PCI-E1x, SATA III+RAID, M.2, U.2, GB Lan, USB3.1, ATX, Retail)

С количеством разъемов SATA 6Gb/s 8 шт. Звук - HDA. С количеством слотов памяти 8. Разъем PS/2 (мышь). С максимальный объем памяти 128 ГБ. Поддержка режима SATA RAID. Поддержка Hyper-Threading . Разъем PS/2 (клавиатура). Производитель чипсета - Intel. С общим количеством интерфейсов USB 19 шт. Основной разъем питания - 24-pin. Двухканальный режим памяти. Контроллер Ethernet. Поддержка SLI/CrossFire. Socket - LGA2066. Формфактор - ATX. BIOS - AMI. Разъем питания процессора - 8-pin. Поддерживаемые процессоры - Intel. Контроллер SATA. Тип памяти - DDR4. С количеством слотов PCI-E 5 шт. Четырехканальный режим памяти.

купить в интернет-магазине Oldi.ru

видеообзор фото

13 155 руб.

Материнская плата GigaByte X299 UD4 Pro

Тип памяти - DDR4. Максимальный объем памяти 512 ГБ. С двухканальным режимом памяти. С контроллером Ethernet. С четырехканальным режимом памяти. С разъемом PS/2 (мышь). С поддержкой Hyper-Threading . Разъем питания процессора - 8-pin. Звук - HDA. Общее количество интерфейсов USB 16 шт. Количество слотов PCI-E 5 шт. С разъемом PS/2 (клавиатура). Количество разъемов SATA 6Gb/s 8 шт. Поддерживаемые процессоры - Intel. Количество слотов памяти - 8. С поддержкой SLI/CrossFire. С контроллером SATA. Socket - LGA2066. Основной разъем питания - 24-pin. С поддержкой режима SATA RAID. Формфактор - ATX. BIOS - AMI. Производитель чипсета - Intel.

купить в интернет-магазине Плеер.Ру

возможен кредит | возможен самовывоз

видеообзор фото

14 190 руб.

Intel Материнская плата ASUS PRIME Z370-A II S1151, iZ370, 4xDDR4, 3xPCI-Ex16, 4xPCI-Ex1, DVI, DP, HDMI, SATAIII+RAID, GB Lan, USB3.1, ATX, Retail 90MB0ZT0-M0EAY0

С максимальный объем памяти 64 ГБ. Поддержка Hyper-Threading . Производитель чипсета - Intel. Основной разъем питания - 24-pin. Разъем HDMI на задней панели. Socket - LGA1151. Поддержка режима SATA RAID. Формфактор - ATX. Контроллер Ethernet. Поддержка SLI/CrossFire. Поддерживаемые процессоры - Intel. С количеством разъемов SATA 6Gb/s 6 шт. С количеством слотов PCI-E 7 шт. Встроенная графика. Тип памяти - DDR4. Разъем питания процессора - 8-pin. BIOS - AMI. DVI-выход на задней панели. Двухканальный режим памяти. С общим количеством интерфейсов USB 14 шт. Звук - HDA. С количеством слотов памяти 4. Контроллер SATA.

в интернет-магазине Oldi.ru

видеообзор фото

13 489 руб.

Материнская плата MSI MPG Z390 GAMING PRO CARBON Z390 Gaming Pro Carbon

Формфактор - ATX. Производитель чипсета - Intel. С разъемом HDMI на задней панели. С поддержкой Hyper-Threading . С поддержкой SLI/CrossFire. Поддерживаемые процессоры - Intel. С поддержкой режима SATA RAID. С двухканальным режимом памяти. Тип памяти - DDR4. С контроллером Ethernet. Со встроенной графикой. С контроллером SATA.

в интернет-магазине Плеер.Ру

возможен кредит | возможен самовывоз

фото

19 360 руб.

Intel Материнская плата MSI X299 SLI PLUS (S2066, X299, 8*DDR4, 4*PCI-E16x, 2*PCI-E1x, SATA III+RAID, M.2, U.2, 2*GB Lan, USB3.1, ATX, Retail)

Поддержка Hyper-Threading . Производитель чипсета - Intel. Двухканальный режим памяти. Четырехканальный режим памяти. Поддерживаемые процессоры - Intel. С общим количеством интерфейсов USB 19 шт. Контроллер Ethernet. Поддержка SLI/CrossFire. Разъем питания процессора - 8-pin. BIOS - AMI. Контроллер SATA. Поддержка режима SATA RAID. Разъем PS/2 (клавиатура). С количеством слотов памяти 8. Звук - HDA. С количеством разъемов SATA 6Gb/s 8 шт. Разъем PS/2 (мышь). С максимальный объем памяти 128 ГБ. Формфактор - ATX. Socket - LGA2066. С количеством слотов PCI-E 6 шт. Тип памяти - DDR4. Основной разъем питания - 24-pin.

в интернет-магазине Oldi.ru

видеообзор фото

20 474 руб.

Материнская плата ASUS ROG Strix X299-E GAMING ROG STRIX X299-E GAMING

Поддерживаемые процессоры - Intel. С контроллером Ethernet. С контроллером Wi-Fi. Socket - LGA2066. С контроллером SATA. Количество слотов PCI-E 6 шт. С поддержкой Hyper-Threading . Производитель чипсета - Intel. С поддержкой SLI/CrossFire. Основной разъем питания - 24-pin. Количество разъемов SATA 6Gb/s 8 шт. BIOS - AMI. Звук - HDA. Количество слотов памяти - 8. Разъем питания процессора - 8-pin + 4-pin. С поддержкой режима SATA RAID. С контроллером Bluetooth. С двухканальным режимом памяти. С четырехканальным режимом памяти. Тип памяти - DDR4. Максимальный объем памяти 128 ГБ. Формфактор - ATX. Общее количество интерфейсов USB 14 шт.

в интернет-магазине Плеер.Ру

возможен кредит | возможен самовывоз

видеообзор фото

19 690 руб.

Intel Материнская плата MSI X299 TOMAHAWK AC (S2066, X299, 8*DDR4, 4*PCI-E16x, 2*PCI-E1x, SATA III+RAID, M.2, U.2, GB Lan, WiFi, BT, USB3.1, ATX, Retail)

Основной разъем питания - 24-pin. Разъем питания процессора - 8-pin + 4-pin. С количеством слотов PCI-E 6 шт. BIOS - AMI. С общим количеством интерфейсов USB 18 шт. Поддержка Hyper-Threading . Формфактор - ATX. С количеством слотов памяти 8. Разъем PS/2 (мышь). Поддерживаемые процессоры - Intel. Поддержка SLI/CrossFire. Звук - HDA. Производитель чипсета - Intel. Контроллер SATA. С количеством разъемов SATA 6Gb/s 8 шт. Тип памяти - DDR4. Поддержка режима SATA RAID. Socket - LGA2066. Четырехканальный режим памяти. Разъем PS/2 (клавиатура). Контроллер Ethernet. С максимальный объем памяти 128 ГБ. Двухканальный режим памяти.

в интернет-магазине Oldi.ru

видеообзор фото

8 480 руб.

Формфактор - mini-ITX. Количество слотов памяти - 2. С разъемом HDMI на задней панели. Количество разъемов USB 3.0 4 шт. Тип памяти - SO-DIMM DDR4. Общее количество интерфейсов USB 11 шт. С поддержкой Hyper-Threading . С двухканальным режимом памяти. Поддерживаемые процессоры - Intel. Количество разъемов SATA 6Gb/s 4 шт. Максимальный объем памяти 32 ГБ. Со встроенной графикой. BIOS - AMI. Звук - HDA. Производитель чипсета - Intel. С контроллером Ethernet. Основной разъем питания - 24-pin. С контроллером SATA. Socket - LGA1151.

в интернет-магазине ОГО!Онлайн-гипермаркет

возможен кредит | возможен самовывоз

фото

1 900 руб.

5% 2 000 руб.

Материнская плата Foxconn 661FX7MI-S 47843

Поддержка Hyper-Threading . С количеством слотов памяти 2. Разъем PS/2 (мышь). Звук - AC"97. С общим количеством интерфейсов USB 8 шт. Слот AGP. Тип памяти - DDR. Socket - LGA775. Поддержка режима SATA RAID. С количеством разъемов SATA 1.5Gb/s 2 шт. Разъем PS/2 (клавиатура). С количеством слотов PCI 3 шт. Контроллер Ethernet. Поддерживаемые процессоры - Intel. С максимальной частотой шины 800 МГц. С максимальный объем памяти 2 ГБ. Производитель чипсета - SiS. Формфактор - mATX.

в интернет-магазине OZON.ru

видеообзор фото

8 520 руб.

Материнская плата ASUS Q170 LGA1151 SO-DIMM DDR4 (Q170T) thin mini-ITX, Ret

Со встроенной графикой. BIOS - AMI. Основной разъем питания - 24-pin. Socket - LGA1151. Производитель чипсета - Intel. Звук - HDA. Формфактор - mini-ITX. С поддержкой Hyper-Threading . С разъемом HDMI на задней панели. С двухканальным режимом памяти. Поддерживаемые процессоры - Intel. С контроллером Ethernet. Тип памяти - SO-DIMM DDR4. Общее количество интерфейсов USB 11 шт. Количество слотов памяти - 2. Количество разъемов USB 3.0 4 шт. Количество разъемов SATA 6Gb/s 4 шт. С контроллером SATA. Максимальный объем памяти 32 ГБ.

в интернет-магазине Электрозон

возможен кредит | возможен самовывоз

фото

8 320 руб.

Материнская плата ASUS Q170T Q170 Socket-1151 2xSO-DIMM DDR4, 4xSATA3, 1xM.2, 4xUSB3.0, HDMI, DP, 2xGlan, thin mini-ITX

Поддерживаемые процессоры - Intel. С общим количеством интерфейсов USB 11 шт. Формфактор - mini-ITX. Поддержка Hyper-Threading . С максимальный объем памяти 32 ГБ. Тип памяти - SO-DIMM DDR4. Контроллер Ethernet. С количеством разъемов USB 3.0 4 шт. BIOS - AMI. Производитель чипсета - Intel. Контроллер SATA. Основной разъем питания - 24-pin. Разъем HDMI на задней панели. С количеством слотов памяти 2. С количеством разъемов SATA 6Gb/s 4 шт. Звук - HDA. Встроенная графика. Socket - LGA1151. Двухканальный режим памяти.

в интернет-магазине Flash Computers

возможен самовывоз

фото

4 327 руб.

Материнская плата asrock G41M-VS3 R2.0

Общее количество интерфейсов USB 8 шт. С двухканальным режимом памяти. Поддерживаемые процессоры - Intel. Разъем питания процессора - 4-pin. С контроллером Ethernet. С поддержкой Hyper-Threading . Со встроенной графикой. С разъемом PS/2 (клавиатура). Количество слотов PCI-E 1 шт. Тип памяти - DDR3. Максимальная частота шины 1333 МГц. BIOS - AMI. Количество слотов памяти - 2. Производитель чипсета - Intel. Основной разъем питания - 24-pin. С разъемом PS/2 (мышь). С D-Sub-выходом на задней панели. Socket - LGA775. Количество слотов PCI 1 шт. Количество разъемов SATA 3Gb/s 4 шт. Звук - HDA. С контроллером SATA. Формфактор - mATX. Максимальный объем памяти 8 ГБ. С поддержкой режима SATA RAID.

в интернет-магазине price-com.ru

видеообзор фото

11 380 руб.

Материнская плата ASUS Prime Z370-A II Socket-1151v2 4xDDR4, 4xSATA3, RAID, 2xM.2, 2xPCI-E16x, 3xUSB3.1, 1xUSB3.1 Type C, DVI-D, HDMI, DP, Glan, ATX (черный)

Поддерживаемые процессоры - Intel. Поддержка Hyper-Threading

в интернет-магазине ОГО!Онлайн-гипермаркет

возможен кредит | возможен самовывоз

видеообзор фото

2 600 руб.

Материнская плата ASRock P4i65G 26504

С двухканальным режимом памяти. Общее количество интерфейсов USB 10 шт. Поддерживаемые процессоры - Intel. Разъем питания процессора - 4-pin. С контроллером Ethernet. С поддержкой Hyper-Threading . Со встроенной графикой. С разъемом PS/2 (клавиатура). Количество слотов PCI-E 1 шт. Со слотом AGP. Максимальный объем памяти 2 ГБ. Основной разъем питания - 20-pin. BIOS - AMI. Количество слотов памяти - 2. Производитель чипсета - Intel. С разъемом PS/2 (мышь). Количество разъемов SATA 1.5Gb/s 2 шт. Тип памяти - DDR. С D-Sub-выходом на задней панели. Максимальная частота шины 800 МГц. С контроллером SATA. Формфактор - mATX. Звук - AC"97. Количество слотов PCI 3 шт. Socket - S478.

в интернет-магазине OZON.ru

видеообзор фото

11 370 руб.

Материнская плата ASUS Z370 LGA1151v2 DDR4 (Prime Z370-A II) ATX, Ret

Поддерживаемые процессоры - Intel. Поддержка Hyper-Threading . С количеством слотов памяти 4. Формфактор - ATX. С количеством разъемов SATA 6Gb/s 6 шт. С максимальный объем памяти 64 ГБ. Контроллер Ethernet. Поддержка SLI/CrossFire. BIOS - AMI. Производитель чипсета - Intel. Контроллер SATA. DVI-выход на задней панели. С количеством слотов PCI-E 7 шт. Основной разъем питания - 24-pin. Разъем HDMI на задней панели. Разъем питания процессора - 8-pin. Звук - HDA. С общим количеством интерфейсов USB 14 шт. Тип памяти - DDR4. Встроенная графика. Socket - LGA1151. Поддержка режима SATA RAID. Двухканальный режим памяти.

в интернет-магазине Электрозон

В прошлом мы рассказывали о технологии одновременной многопоточности (Simultaneous Multi-Threading - SMT), которая применяется в процессорах Intel. И хотя первоначально она создавалась под кодовым именем "технология Джексона" (Jackson Technology) как возможный, вероятный вариант, Intel официально анонсировала свою технологию на форуме IDF прошлой осенью. Кодовое имя Jackson было заменено более подходящим Hyper-Threading. Итак, для того чтобы разобраться, как работает новая технология, нам нужны кое-какие первоначальные знания. А именно, нам нужно знать, что такое поток, как выполняются эти потоки. Почему работает приложение? Как процессор узнает, какие операции и над какими данными он должен совершать? Вся эта информация содержится в откомпилированном коде выполняемого приложения. И как только приложение получает от пользователя какую-либо команду, какие-либо данные, – процессору сразу же отправляются потоки, в результате чего он и выполняет то, что должен выполнить в ответ на запрос пользователя. С точки зрения процессора, поток – это набор инструкций, которые необходимо выполнить. Когда в вас попадает снаряд в Quake III Arena, или когда вы открываете документ Microsoft Word, процессору посылается определенный набор инструкций, которые он должен выполнить.

Процессор точно знает, где брать эти инструкции. Для этой цели предназначен редко упоминаемый регистр, называемый счетчиком команд (Program Counter, PC). Этот регистр указывает на место в памяти, где хранится следующая для выполнения команда. Когда поток отправляется на процессор, адрес памяти потока загружается в этот счетчик команд, чтобы процессор знал, с какого именно места нужно начать выполнение. После каждой инструкции значение этого регистра увеличивается. Весь этот процесс выполняется до завершения потока. По окончании выполнения потока, в счетчик команд заносится адрес следующей инструкции, которую нужно выполнить. Потоки могут прерывать друг друга, при этом процессор запоминает значение счетчика команд в стеке и загружает в счетчик новое значение. Но ограничение в этом процессе все равно существует – в каждую единицу времени можно выполнять лишь один поток.

Существует общеизвестный способ решения данной проблемы. Заключается он в использовании двух процессоров – если один процессор в каждый момент времени может выполнять один поток, то два процессора за ту же единицу времени могут выполнять уже два потока. Отметим, что этот способ не идеален. При нем возникает множество других проблем. С некоторыми, вы уже, вероятно, знакомы. Во-первых, несколько процессоров всегда дороже, чем один. Во-вторых, управлять двумя процессорами тоже не так-то просто. Кроме того, не стоит забывать о разделении ресурсов между процессорами. Например, до появления чипсета AMD 760MP, все x86 платформы с поддержкой многопроцессорности разделяли всю пропускную способность системной шины между всеми имеющимися процессорами. Но основной недостаток в другом – для такой работы и приложения, и сама операционная система должны поддерживать многопроцессорность. Способность распределить выполнение нескольких потоков по ресурсам компьютера часто называют многопоточностью. При этом и операционная система должна поддерживать многопоточность. Приложения также должны поддерживать многопоточность, чтобы максимально эффективно использовать ресурсы компьютера. Не забывайте об этом, когда мы будем рассматривать ещё один подход решения проблемы многопоточности, новую технологию Hyper-Threading от Intel.

Производительности всегда мало

Об эффективности всегда много говорят. И не только в корпоративном окружении, в каких-то серьезных проектах, но и в повседневной жизни. Говорят, homo sapiens лишь частично задействуют возможности своего мозга. То же самое относится и к процессорам современных компьютеров.

Взять, к примеру, Pentium 4. Процессор обладает, в общей сложности, семью исполнительными устройствами, два из которых могут работать с удвоенной скоростью – две операции (микрооперации) за такт. Но в любом случае, вы бы не нашли программы, которая смогла бы заполнить инструкциями все эти устройства. Обычные программы обходятся несложными целочисленными вычислениями, да несколькими операциями загрузки и хранения данных, а операции с плавающей точкой остаются в стороне. Другие же программы (например, Maya) главным образом загружают работой устройства для операций с плавающей точкой.

Чтобы проиллюстрировать ситуацию, давайте вообразим себе процессор с тремя исполнительными устройствами: арифметико-логическим (целочисленным – ALU), устройством для работы с плавающей точкой (FPU), и устройством загрузки/хранения (для записи и чтения данных из памяти). Кроме того, предположим, что наш процессор может выполнять любую операцию за один такт и может распределять операции по всем трем устройствам одновременно. Давайте представим, что к этому процессору на выполнение отправляется поток из следующих инструкций:

Рисунок ниже иллюстрирует уровень загруженности исполнительных устройств (серым цветом обозначается незадействованное устройство, синим – работающее устройство):

Итак, вы видите, что в каждый такт используется только 33% всех исполнительных устройств. В этот раз FPU остается вообще незадействованным. В соответствии с данными Intel, большинство программ для IA-32 x86 используют не более 35% исполнительных устройств процессора Pentium 4.

Представим себе ещё один поток, отправим его на выполнение процессору. На этот раз он будет состоять из операций загрузки данных, сложения и сохранения данных. Они будут выполняться в следующем порядке:

И снова загруженность исполнительных устройств составляет лишь на 33%.

Хорошим выходом из данной ситуации будет параллелизм на уровне инструкций (Instruction Level Parallelism - ILP). В этом случае одновременно выполняются сразу нескольких инструкций, поскольку процессор способен заполнять сразу несколько параллельных исполнительных устройств. К сожалению, большинство x86 программ не приспособлены к ILP в должной степени. Поэтому приходится изыскивать другие способы увеличения производительности. Так, например, если бы в системе использовалось сразу два процессора, то можно было бы одновременно выполнять сразу два потока. Такое решение называется параллелизмом на уровне потоков (thread-level parallelism, TLP). К слову сказать, такое решение достаточно дорогое.

Какие же ещё существуют способы увеличения исполнительной мощи современных процессоров архитектуры x86?

Hyper-Threading

Проблема неполного использования исполнительных устройств связана с несколькими причинами. Вообще говоря, если процессор не может получать данные с желаемой скоростью (это происходит в результате недостаточной пропускной способности системной шины и шины памяти), то исполнительные устройства будут использоваться не так эффективно. Кроме того, существует ещё одна причина – недостаток параллелизма на уровне инструкций в большинстве потоков выполняемых команд.

В настоящее время большинство производителей улучшают скорость работы процессоров путем увеличения тактовой частоты и размеров кэша. Конечно, таким способом можно увеличить производительность, но все же потенциал процессора не будет полностью задействован. Если бы мы могли одновременно выполнять несколько потоков, то мы смогли бы использовать процессор куда более эффективно. Именно в этом и заключается суть технологии Hyper-Threading.

Hyper-Threading – это название технологии, существовавшей и ранее вне x86 мира, технологии одновременной многопоточности (Simultaneous Multi-Threading, SMT). Идея этой технологии проста. Один физический процессор представляется операционной системе как два логических процессора, и операционная система не видит разницы между одним SMT процессором или двумя обычными процессорами. В обоих случаях операционная система направляет потоки как на двухпроцессорную систему. Далее все вопросы решаются на аппаратном уровне.

В процессоре с Hyper-Threading каждый логический процессор имеет свой собственный набор регистров (включая и отдельный счетчик команд), а чтобы не усложнять технологию, в ней не реализуется одновременное выполнение инструкций выборки/декодирования в двух потоках. То есть такие инструкции выполняются поочередно. Параллельно же выполняются лишь обычные команды.

Официально технология была объявлена на форуме Intel Developer Forum прошлой осенью. Технология демонстрировалась на процессоре Xeon, где проводился рендеринг с помощью Maya. В этом тесте Xeon с Hyper-Threading показал на 30% лучшие результаты, чем стандартный Xeon. Приятный прирост производительности, но больше всего интересно то, что технология уже присутствует в ядрах Pentium 4 и Xeon, только она выключена.

Технология пока ещё не выпущена, однако те из вас, кто приобрел 0,13 мкм Xeon, и установил этот процессор на платы с обновленным BIOS, наверняка были удивлены, увидев в BIOS опцию включения/отключения Hyper-Threading.

А пока Intel будет оставлять опцию Hyper-Threading отключенной по умолчанию. Впрочем, для ее включения достаточно просто обновить BIOS. Все это касается рабочих станций и серверов, что же до рынка персональных компьютеров, в ближайшем будущем у компании планов касательно этой технологии не имеется. Хотя возможно, производители материнских плат предоставят возможность включить Hyper-Threading с помощью специального BIOS.

Остается очень интересный вопрос, почему Intel хочет оставить эту опцию выключенной?

Углубляемся в технологию

Помните те два потока из предыдущих примеров? Давайте на этот раз предположим, что наш процессор оснащен Hyper-Threading. Посмотрим, что получится, если мы попытаемся одновременно выполнить эти два потока:

Как и ранее, синие прямоугольники указывают на выполнение инструкции первого потока, а зеленые - на выполнение инструкции второго потока. Серые прямоугольники показывают незадействованные исполнительные устройства, а красные - конфликт, когда на одно устройство пришло сразу две разных инструкции из разных потоков.

Итак, что же мы видим? Параллелизм на уровне потоков дал сбой – исполнительные устройства стали использоваться ещё менее эффективно. Вместо параллельного выполнения потоков, процессор выполняет их медленнее, чем если бы он выполнял их без Hyper-Threading. Причина довольно проста. Мы пытались одновременно выполнить сразу два очень похожих потока. Ведь оба они состоят из операций по загрузке/сохранению и операций сложения. Если бы мы параллельно запускали "целочисленное" приложение и приложение, работающее с плавающей точкой, мы бы оказались куда в лучшей ситуации. Как видим, эффективность Hyper-Threading сильно зависит от вида нагрузки на ПК.

В настоящий момент, большинство пользователей ПК используют свой компьютер примерно так, как описано в нашем примере. Процессор выполняет множество очень схожих операций. К сожалению, когда дело доходит до однотипных операций, возникают дополнительные сложности с управлением. Случаются ситуации, когда исполнительных устройств нужного типа уже не осталось, а инструкций, как назло, вдвое больше обычного. В большинстве случаев, если бы процессоры домашних компьютеров использовали технологию Hyper-Threading, то производительность бы от этого не увеличилась, а может быть, даже снизилась на 0-10%.

На рабочих же станциях возможностей для увеличения производительности у Hyper-Threading больше. Но с другой стороны, все зависит от конкретного использования компьютера. Рабочая станция может означать как high-end компьютер для обработки 3D графики, так и просто сильно нагруженный компьютер.

Наибольший же прирост в производительности от использования Hyper-Threading наблюдается в серверных приложениях. Главным образом это объясняется широким разнообразием посылаемых процессору операций. Сервер баз данных, использующих транзакции, может работать на 20-30% быстрее при включенной опции Hyper-Threading. Чуть меньший прирост производительности наблюдается на веб-серверах и в других сферах.

Максимум эффективности от Hyper-Threading

Вы думаете, Intel разработала Hyper-Threading только лишь для своей линейки серверных процессоров? Конечно же, нет. Если бы это было так, они бы не стали впустую тратить место на кристалле других своих процессоров. По сути, архитектура NetBurst, использующаяся в Pentium 4 и Xeon, как нельзя лучше подходит для ядра с поддержкой одновременной многопоточности. Давайте ещё раз представим себе процессор. На этот раз в нем будет ещё одно исполнительное устройство – второе целочисленное устройство. Посмотрим, что случится, если потоки будут выполняться обоими устройствами:

С использованием второго целочисленного устройства, единственный конфликт случился только на последней операции. Наш теоретический процессор в чем-то похож на Pentium 4. В нем имеется целых три целочисленных устройства (два ALU и одно медленное целочисленное устройство для циклических сдвигов). А что ещё более важно, оба целочисленных устройства Pentium 4 способны работать с двойной скоростью – выполнять по две микрооперации за такт. А это, в свою очередь, означает, что любое из этих двух целочисленных устройств Pentium 4/Xeon могло выполнить те две операции сложения из разных потоков за один такт.

Но это не решает нашей проблемы. Было бы мало смысла просто добавлять в процессор дополнительные исполнительные устройства с целью увеличения производительности от использования Hyper-Threading. С точки зрения занимаемого на кремнии пространства это было бы крайне дорого. Вместо этого, Intel предложила разработчикам оптимизировать программы под Hyper-Threading.

Используя инструкцию HALT, можно приостановить работу одного из логических процессоров, и тем самым увеличить производительность приложений, которые не выигрывают от Hyper-Threading. Итак, приложение не станет работать медленнее, вместо этого один из логических процессоров будет остановлен, и система будет работать на одном логическом процессоре – производительность будет такой же, что и на однопроцессорных компьютерах. Затем, когда приложение сочтет, что от Hyper-Threading оно выиграет в производительности, второй логический процессор просто возобновит свою работу.

На веб-сайте Intel имеется презентация , описывающая, как именно необходимо программировать, чтобы извлечь из Hyper-Threading максимум выгоды.

Выводы

Хотя мы все были крайне обрадованы, когда до нас дошли слухи об использовании Hyper-Threading в ядрах всех современных Pentium 4/Xeon, все же это не будет бесплатной производительностью на все случаи жизни. Причины ясны, и технологии предстоит преодолеть ещё многое, прежде чем мы увидим Hyper-Threading, работающую на всех платформах, включая домашние компьютеры. А при поддержке разработчиков, технология определенно может оказаться хорошим союзником Pentium 4, Xeon, и процессорам будущего поколения от Intel.

При существующих ограничениях и при имеющейся технологии упаковки, Hyper-Threading кажется более разумным выбором для потребительского рынка, чем, например, подход AMD в SledgeHammer – в этих процессорах используется целых два ядра. И до тех пор, пока не станут совершенными технологии упаковки, такие как Bumpless Build-Up Layer , стоимость разработки многоядерных процессоров может оказаться слишком высокой.

Интересно заметить, насколько разными стали AMD и Intel за последние несколько лет. Ведь когда-то AMD практически копировала процессоры Intel. Теперь же компании выработали принципиально иные подходы к будущим процессорам для серверов и рабочих станций. AMD на самом деле проделала очень длинный путь. И если в процессорах Sledge Hammer действительно будут использоваться два ядра, то по производительности такое решение будет эффективнее, чем Hyper-Threading. Ведь в этом случае кроме удвоения количества всех исполнительных устройств снимаются проблемы, которые мы описали выше.

Hyper-Threading ещё некоторое время не появится на рынке обычных ПК, но при хорошей поддержке разработчиков, она может стать очередной технологией, которая опустится с серверного уровня до простых компьютеров.

Впервые технология Hyper-Threading (HT, гиперпоточность) появилась 15 лет назад - в 2002 году, в процессорах Pentium 4 и Xeon, и с тех пор то появлялась в процессорах Intel (в линейке Core i, некоторых Atom, в последнее время еще и в Pentium), то исчезала (ее поддержки не было в линейках Core 2 Duo и Quad). И за это время она обросла мифическими свойствами - дескать ее наличие чуть ли не удваивает производительность процессора, превращая слабые i3 в мощные i5. При этом другие говорят что HT - обычная маркетинговая уловка, и толку от нее мало. Правда как обычно по середине - местами толк от нее есть, но двухкртаного прироста ждать точно не стоит.

Техническое описание технологии

Начнем с определения, данного на сайте Intel:

Технология Intel® Hyper-Threading (Intel® HT) обеспечивает более эффективное использование ресурсов процессора, позволяя выполнять несколько потоков на каждом ядре. В отношении производительности эта технология повышает пропускную способность процессоров, улучшая общее быстродействие многопоточных приложений.

В общем понятно то, что ничего не понятно - одни общие фразы, однако вкраце технологию они описывают - HT позволяет одному физическому ядру обрабатывать одновременно несколько (обычно два) логических потока. Но как? Процессор, поддерживающий гиперпоточность:

  • может хранить информацию сразу о нескольких выполняющихся потоках;
  • содержит по одному набору регистров (то есть блоков быстрой памяти внутри процессора) и по одному контроллеру прерываний (то есть встроенному блоку процессора, отвечающему за возможность последовательной обработки запросов о наступлении какого-либо события, требующего немедленного внимания, от разных устройств) на каждый логический процессор.
Разберем на простом примере:

Допустим перед процессором стоят две задачи. Если процессор имеет одно ядро, то он будет выполнять их последовательно, если два - то параллельно на двух ядрах, и время выполнения обеих задач будет равно времени, затраченному на более тяжелую задачу. Но что если процессор одноядерный, но поддерживает гиперпоточность? Как видно на картинке выше при выполнении одной задачи процессор не занят на 100% - какие-то блоки процессора банально не нужны в данной задаче, где-то ошибается модуль предсказания переходов (который нужен для предсказания, будет ли выполнен условный переход в программе), где-то происходит ошибка обращения к кэшу - в общем и целом при выполнении задачи процессор редко бывает занят больше, чем на 70%. А технология HT как раз «подпихивает» незанятым блокам процессора вторую задачу, и получается что одновременно на одном ядре обрабатываются две задачи. Однако удвоения производительности не происходит по понятным причинам - очень часто получается так, что двум задачам нужен один и тот же вычислительный блок в процессоре, и тогда мы видим простой: пока одна задача обрабатывается, выполнение второй на это время просто останавливается (синие квадраты - первая задача, зеленые - вторая, красные - обращение задач к одному и тому же блоку в процессоре):

В итоге время, затраченное процессором с HT на две задачи, оказывается больше времени, требуемого на вычисление самой тяжелой задачи, но меньше того времени, которое нужно для последовательного вычисления обеих задач.

Плюсы и минусы технологии

С учетом того, что кристалл процессора с поддержкой HT физчески больше кристалла процессора без HT в среднем на 5% (именно столько занимают дополнительные блоки регистров и контроллеры прерываний), а поддержка HT позволяет нагрузить процессор на 90-95%, то в сравнении с 70% без HT мы получаем, что прирост в лучшем случае будет 20-30% - цифра достаточно большая.

Однако не все так хорошо: бывает, что прироста производительности от HT нет вообще, и даже бывает так, что HT ухудшает производительность процессора. Это бывает по многим причинам:

  • Нехватка кэш-памяти. К примеру в современных четырехядерных i5 находится 6 мб кэша L3 - по 1.5 мб на ядро. В четырехядерных i7 с HT кэша уже 8 мб, но так как логических ядер 8, то мы получаем уже только 1 мб на ядро - при вычислениях некоторым программам этого объема может не хватать, что приводит к падению производительности.
  • Отсутствие оптимизации ПО. Самая основная проблема - программы считают логические ядра физическими, из-за чего при параллельном выполнении задач на одном ядре часто возникают задержки из-за обращения задач к одному и тому же вычислительному блоку, что в итоге сводит сводит прирост производительности от HT на нет.
  • Зависимость данных. Вытекает из предыдущего пункта - для выполнения одной задачи требуется результат другой, а она еще не выполнена. И опять же мы получаем простой, снижение загрузки на процессор и небольшой прирост от HT.
Программы, умеющие работать с гиперпоточностью

Таких много, ибо для вычислений HT это манна небесная - тепловыделение практически не растет, процессор особо больше не становится, а при правильной оптимизации можно получить прирост до 30%. Поэтому ее поддержку быстро внедрили в те программы, где легко можно сделать распараллеливание нагрузки - в архиваторы (WinRar), программы для 2D/3D моделирования (3ds Max, Maya), программы для обрабокти фото и видео (Sony Vegas, Photoshop, Corel Draw).

Программы, плохо работающие с гиперпоточностью

Традиционно это большинство игр - их обычно бывает трудно грамотно распараллелить, поэтому зачастую четырех физических ядер на высоких частотах (i5 K-серии) более чем хватает для игр, распараллелить которые под 8 логических ядер в i7 оказывается непосильной задачей. Однако стоит учитывать и то, что есть фоновые процессы, и если процессор не поддерживает HT, то их обработка ложится на физические ядра, что может замедлить игру. Тут i7 с HT оказывается в выигрыше - все фоновые задачи традиционно имеют пониженный приоритет, поэтому при одновременной работе на одном физическом ядре игры и фоновой задаче игра будет получать повышенный приоритет, и при этом фоновая задача не будет «отвлекать» занятые игрой ядра - именно поэтому для стриминга или записи игр лучше брать i7 с гиперпоточностью.

Итоги

Пожалуй тут остается только один вопрос - так имеет ли смысл брать процессоры с HT или нет? Если вы любите держать одновременно открытыми пяток программ и при этом играть в игры, или же занимаетесь обработкой фото, видео или моделированием - да, разумеется стоит брать. А если вы привыкли перед запуском тяжелой программы закрывать все другие, и не балуетесь обработкой или моделированием, то процессор с HT вам ни к чему.

Еще в далеком феврале 2002 года дебютировала фирменная технология от компании «Интел» - Hyper-Threading. Что этотакое и почему она получила на сегодняшний день практически повсеместное распространение? Ответ на этот вопрос и не только будет рассмотрен в данном материале.

История появления технологии HT

Первым настольным процессором с поддержкой логической многопоточности стал четвертого поколения Pentium. Hyper-Threading - технология, котораяв этом случае позволяла на одном физическом ядре обрабатывать сразу два потока данных. Причем чип этот устанавливался в процессорный разъем PGA478, функционировал он в режиме 32-битных вычислений, а его тактовая частота была равна 3,06 ГГц. До этого ее можно было встретить лишь в серверных процессорных устройствах серии XEON.

После получения успешных результатов в этой нише компания «Интел» решила распространить HT и в настольный сегмент. В дальнейшем в рамках PGA478 было выпущено целое семейство таких процессоров. После того как дебютировал сокет LGA775, НТ была временно призабыта. Но с началом продаж LGA1156 она получила второе дыхание в 2009 году. С тех пор она стала обязательным атрибутом процессорных решений от «Интел», причем как в ультрапроизводительном сегменте, так в бюджетных компьютерных системах.

Концепция данной технологии

Суть технологии Intel Hyper-Threadingсводится к тому, что путем минимальных изменений в компоновке микропроцессорного устройства разработчики добиваются того, что на уровне системного и программного обеспечения код обрабатывается в два потока на одном физическом ядре. Все элементы вычислительного модуля при этом остаются без изменений, добавляются лишь специальные регистры и переработанный контроллер прерываний.

Если по каким-либо причинам физический модуль вычислений начинает простаивать, то на нем запускается второй программный поток, а первый при этом дожидается получения необходимых данных или информации. То есть если раньше простои в работе вычислительной части чипов были достаточно частыми, то практически полностью исключает такую возможность Hyper-Threading. Что это за технология, рассмотрим ниже.

На аппаратном уровне

Повышенные требования выдвигаются к аппаратному обеспечению в случае использования Hyper-Threading. Материнская плата, BIOS и процессор должны поддерживать ее. По крайней мере, в рамках процессорного разъема PGA478 на подобную совместимость необходимо было обращать повышенное внимание. Не все наборы системной логики в этом случае были ориентированы на использование НТ, как и процессорные устройства. И даже если в номенклатуре системной платы присутствовала столь желанная аббревиатура, то это вовсе не означало, что чипы правильно инициировались по той причине, что необходимо было обновить BIOS.

Кардинально изменилась ситуация в этом случае начиная с LGA1156. Данная вычислительная платформа была изначально заточена под применение Hyper-Threading. Поэтому каких-либо существенных проблем с применением последней в данном случае у пользователей не возникало. Это же самое справедливо и для последующих процессорных разъемов, таких как LGA1155, LGA1151 и LGA1150.

Аналогичным отсутствием проблем с применением НТ могли похвастаться и высокопроизводительные сокеты LGA1366, LGA2011 и LGA2011-v3. В довершение к этому прямой конкурент «Интел» - компания AMD - в последнем поколении своих процессоров для АМ4 реализовала весьма схожую технологию логической многозадачности - SMT. Она использует практически идентичную концепцию. Отличие заключается лишь в названии.

Основные компоненты со стороны программного обеспечения

Нужно отметить, что даже в случае полноценной поддержки НТ со стороны аппаратных ресурсов не всегда она будет успешно работать на уровне программного обеспечения. Для начала операционная система должна уметь работать одновременно с несколькими вычислительными ядрами. В устаревших на сегодняшний день версиях системного софта MS-DOS или Windows 98 такой возможности нет. А вот в случае Windows 10 каких-либо проблем не возникает, и эта операционная система уже изначально заточена под такие аппаратные ресурсы персонального компьютера.

Теперь разберемся с тем, как включить Hyper-Threading в Windows.Для этого на компьютере должно быть установлено все необходимое управляющее прикладное программное обеспечение. Как правило, это специальная утилита с компакт-диска системной платы. В ней есть специальная вкладка, на которой можно в режиме реального времени изменить значения в БИОСе. Это, в свою очередь, приводит к тому, что уже в нем опция Hyper-Threading переходит в положение Enabled, а также активируются дополнительные логические потоки, причем даже без перезагрузки операционной системы.

Включение технологии

Многие начинающие пользователи достаточно часто на первоначальном этапе использования нового компьютера задаются одним важным вопросом относительно Hyper-Threading: как включитьее? Существует два возможных способа решения этой задачи. Один из них - это использование БИОСа. В этом случае необходимо выполнить такие действия:

  • При включении ПК инициализируем процедуру входа в БИОС. Для этого достаточно при появлении тестового экрана зажать кнопку DEL (в некоторых случаях необходимо зажимать F2).
  • После появления синего экрана переходим с применением навигационных клавиш на вкладку ADVANCED.
  • Затем на ней находим пункт Hyper-Threading.
  • Напротив него необходимо установить значение Enabled.

Ключевой недостаток данного способа - это необходимость перезагрузки персонального компьютера для выполнения данной операции. Реальной альтернативой ей является использование конфигурационной утилиты системной платы. Этот метод был детально описан в предыдущем разделе. И в этом случае заходить в БИОС совсем не обязательно.

Отключение НТ

По аналогии со способами включения НТ существует два способа дезактивации данной функции. Один из них можно выполнить лишь только в процессе инициализации компьютерной системы. Это, в свою очередь, не совсем удобно на практике. Поэтому специалисты останавливают свой выбор на втором методе, который основывается на использовании компьютерной утилиты материнской платы. В первом случае выполняются такие манипуляции:

  1. При загрузке электронно-вычислительной машины заходим в базовую систему ввода — вывода (второе ее название BIOS) по ранее изложенной методике.
  2. Перемещаемся с применением клавиш управления курсором в пункт меню Advanced.
  3. Далее необходимо найти пункт меню Hyper-Threading (в некоторых моделях системных плат он может обозначаться как НТ). Напротив него с помощью кнопок PG DN и PG UP устанавливаем значение Disabled.
  4. Сохраняем снесенные изменения с помощью F10.
  5. Выходим из БИОСа и перезагружаем персональный компьютер.

Во втором случае при использовании диагностической утилиты системной платы нет необходимости перезагружать ПК. Это ключевое его преимущество. Алгоритм в этом случае идентичный. Разница состоит в том, что здесь используется предустановленная специальная утилита от производителя системной платы.

Ранее были описаны два основные способа того, как отключить Hyper-Threading. Хоть и более сложным номинально считается второй из них, но он более практичный по той причине, что не требует перезагрузки компьютера.

Модели процессоров с поддержкой НТ

Изначально, как было уже отмечено ранее, поддержка Hyper-Threading была реализована лишь только в процессорных устройствах серии Pentium 4 и только в исполнении PGA478. А вот уже в рамках LGA1156 и более поздних вычислительных платформ рассматриваемая в рамках данного материала технология использовалась практически во всех возможных моделях чипов. С ее помощью процессоры Celeron превращались из одноядерного в двухпоточное решение. В свою очередь, Penrium и i3 с ее помощью могли уже обрабатывать 4 потока кода. Ну а флагманские решения серии i7 способны одновременно работать с 8 логическими процессорами.

Для наглядности приведем применение НТ в рамках актуальной вычислительной платформы от Intel - LGA1151:

  • ЦПУ серии Celeron не поддерживают эту технологию и имеют всего 2 вычислительных блока.
  • Чипы линейки Pentium оснащены 2 ядрами и четырьмя потоками. Как результат, НТ в этом случае поддерживается в полном объеме.
  • Аналогичную компоновку имеют и более производительные процессорные устройства модельного ряда Core i3: 2 физических модуля могут работать в 4 потока.
  • Как и наиболее бюджетные чипы Celeron, Core i5 не оснащены поддержкой НТ.
  • Флагманские решения i7 тоже поддерживают HT. Только в этом случае вместо 2 реальны ядер есть уже 4 блока обработки кода. Они, в свою очередь, уже могут работать в 8 потоков.

Hyper-Threading - что этоза технология и каково ее основное назначение? Это логическая многозадачность, которая позволяет путем минимальных корректировок аппаратного обеспечения увеличить производительность компьютерной системы в целом.

В каких случаях эту технологию наиболее оптимально использовать?

В некоторых случаях, как было отмечено ранее, НТ увеличивает быстродействие, с которым обрабатывает программный код процессор. Hyper-Threading может эффективно работать только с распаленным софтом. Типичными его примерами являются кодировщики видео и аудиоконтента, профессиональные графические пакеты и архиваторы. Также наличие такой технологии позволяет существенно улучшить быстродействие серверной системы. А вот при однопоточной реализации программного кода нивелируется наличие Hyper-Threading, то есть получается обычный процессор, который решает на одном ядре одну задачу.

Преимущества и недостатки

Есть определенные недостатки у технологии Intel Hyper-Threading. Первый из них - это возросшая стоимость ЦПУ. Но большее быстродействие и улучшенная компоновка кремниевого кристалла в любом случае увеличат цену ЦПУ. Также возросшая площадь полупроводниковой основы процессорного устройства приводит к повышению уровня потребляемой мощности и температуры. Разница в этом случае несущественная, и она не превышает 5 %, но она все-таки есть. Больше каких-либо существенных недостатков в этом случае нет.

Теперь о преимуществах. На быстродействие и производительность фирменная технология НТ от компании «Интел» не оказывает, то есть ниже определенного порога у такого компьютера опуститься не получится. Если же программное обеспечение прекрасно поддерживает распараллеленные вычисления, то будет наблюдаться определённый прирост быстродействия и, конечно же, производительности.

Как показывают тесты, в некоторых случаях прирост может достигать 20 %. Наиболее оптимизированным софтом в этом случае являются различные перекодировщики мультимедийного контента, архиваторы и графические пакеты. А вот с играми все уж не так и хорошо. Они, в свою очередь, способны работать в 4 потока, и, как результат, флагманские чипы не способны в этом случае опередить процессорные решения среднего уровня.

Современная альтернатива от AMD

Технология Hyper-Threadingне единственная в своем роде на сегодняшний день. У нее есть реальная альтернатива. Компания AMD с выпуском платформы АМ4 предложила ей достойного конкурента в лице SMT. На аппаратном уровне это идентичные решения. Только вот флагман от «Интел» может обработать 8 потоков, а ведущий чип AMD - 16. Уже одно это обстоятельство указывает на то, что более перспективным является второе решение.

Поэтому компания «Интел» вынуждена в срочном порядке корректировать свои планы по выпуску продукции и предлагать совершенно новые процессорные решения, которые смогут составить достойную конкуренцию новичкам от AMD. Только вот на сегодняшний день они еще не переставлены. Поэтому если нужна доступная компьютерная платформа, то лучше выбирать LGA1151 от «Интел». Если необходим задел по производительности, то предпочтительней будет уже АМ4 от AMD.

20 января 2015 в 19:43

Еще раз о Hyper-Threading

  • Тестирование IT-систем ,
  • Программирование

Было время, когда понадобилось оценить производительность памяти в контексте технологии Hyper-threading . Мы пришли к выводу, что ее влияние не всегда позитивно. Когда появился квант свободного времени, возникло желание продолжить исследования и рассмотреть происходящие процессы с точностью до машинных тактов и битов, используя программное обеспечение собственной разработки.

Исследуемая платформа

Объект экспериментов – ноутбук ASUS N750JK c процессором Intel Core i7-4700HQ. Тактовая частота 2.4GHz, повышаемая в режиме Intel Turbo Boost до 3.4GHz. Установлено 16 гигабайт оперативной памяти DDR3-1600 (PC3-12800), работающей в двухканальном режиме. Операционная система – Microsoft Windows 8.1 64 бита.

Рис.1 Конфигурация исследуемой платформы.

Процессор исследуемой платформы содержит 4 ядра, что при включении технологии Hyper-Threading обеспечивает аппаратную поддержку 8 потоков или логических процессоров. Эту информацию Firmware платформы передает операционной системе посредством ACPI-таблицы MADT (Multiple APIC Description Table). Поскольку платформа содержит только один контроллер оперативной памяти, таблица SRAT (System Resource Affinity Table), декларирующая приближенность процессорных ядер к контроллерам памяти, отсутствует. Очевидно, исследуемый ноутбук не является NUMA-платформой , но операционная система, в целях унификации, рассматривает его как NUMA-систему с одним доменом, о чем говорит строка NUMA Nodes = 1. Факт, принципиальный для наших экспериментов – кэш память данных первого уровня имеет размер 32 килобайта на каждое из четырех ядер. Два логических процессора, разделяющие одно ядро, используют кэш-память первого и второго уровней совместно.

Исследуемая операция

Исследовать будем зависимость скорости чтения блока данных от его размера. Для этого выберем наиболее производительный метод, а именно чтение 256-битных операндов посредством AVX-инструкции VMOVAPD. На графиках по оси X отложен размер блока, по оси Y – скорость чтения. В окрестности точки X, соответствующей размеру кэш-памяти первого уровня, ожидаем увидеть точку перегиба, поскольку производительность должна упасть после того, как обрабатываемый блок выйдет за пределы кэш-памяти. В нашем тесте, в случае многопоточной обработки, каждый из 16 инициируемых потоков, работает с отдельным диапазоном адресов. Для управления технологией Hyper-Threading в рамках приложения, в каждом из потоков используется API-функция SetThreadAffinityMask, задающая маску, в которой каждому логическому процессору соответствует один бит. Единичное значение бита разрешает использовать заданный процессор заданным потоком, нулевое значение – запрещает. Для 8 логических процессоров исследуемой платформы, маска 11111111b разрешает использовать все процессоры (Hyper-Threading включен), маска 01010101b разрешает использовать по одному логическому процессору в каждом ядре (Hyper-Threading выключен).

На графиках используются следующие сокращения:

MBPS (Megabytes per Second) скорость чтения блока в мегабайтах в секунду ;

CPI (Clocks per Instruction) количество тактов на инструкцию ;

TSC (Time Stamp Counter) счетчик процессорных тактов .

Примечание.Тактовая частота регистра TSC может не соответствовать тактовой частоте процессора при работе в режиме Turbo Boost. Это необходимо учитывать при интерпретации результатов.

В правой части графиков визуализируется шестнадцатеричный дамп инструкций, составляющих тело цикла целевой операции, выполняемой в каждом из программных потоков, или первые 128 байт этого кода.

Опыт №1. Один поток



Рис.2 Чтение одним потоком

Максимальная скорость 213563 мегабайт в секунду. Точка перегиба имеет место при размере блока около 32 килобайт.

Опыт №2. 16 потоков на 4 процессора, Hyper-Threading выключен



Рис.3 Чтение шестнадцатью потоками. Количество используемых логических процессоров равно четырем

Hyper-Threading выключен. Максимальная скорость 797598 мегабайт в секунду. Точка перегиба имеет место при размере блока около 32 килобайт. Как и ожидалось, по сравнению с чтением одним потоком, скорость выросла приблизительно в 4 раза, по количеству работающих ядер.

Опыт №3. 16 потоков на 8 процессоров, Hyper-Threading включен



Рис.4 Чтение шестнадцатью потоками. Количество используемых логических процессоров равно восьми

Hyper-Threading включен. Максимальная скорость 800722 мегабайт в секунду, в результате включения Hyper-Threading почти не выросла. Большой минус – точка перегиба имеет место при размере блока около 16 килобайт. Включение Hyper-Threading немного увеличило максимальную скорость, но падение скорости теперь наступает при вдвое меньшем размере блока – около 16 килобайт, поэтому существенно упала средняя скорость. Это не удивительно, каждое ядро имеет собственную кэш-память первого уровня, в то время, как логические процессоры одного ядра, используют ее совместно.

Выводы

Исследованная операция достаточно хорошо масштабируется на многоядерном процессоре. Причины – каждое из ядер содержит собственную кэш-память первого и второго уровней, размер целевого блока сопоставим с размером кэш-памяти, и каждый из потоков работает со своим диапазоном адресов. В академических целях мы создали такие условия в синтетическом тесте, понимая, что реальные приложения обычно далеки от идеальной оптимизации. А вот включение Hyper-Threading, даже в этих условиях дало негативный эффект, при небольшой прибавке пиковой скорости, имеет место существенный проигрыш в скорости обработки блоков, размер которых находится в диапазоне от 16 до 32 килобайт.