> > > > Пятое поколение Xeon: более эффективная структура с большим количеством ядер и кэш-памятью

Пятое поколение Xeon: более эффективная структура с большим количеством ядер и кэш-памятью

Опубликовано:

hardwareluxx news newМенее чем через год после выхода 4-го поколения Xeon (Sapphire Rapids) Intel представила преемника под названием Emeral Rapids, который предсказуемо назван 5-м поколением Xeon. Конечно, Sapphire Rapids в свое время пришлось столкнуться с многочисленными задержками, но все же ускорение темпа перехода от одного поколения Xeon к другому заметно, и этот темп сохранится в следующем году, когда выйдут Sierra Forest только на E-ядрах, а вскоре после них – Granite Rapids, преемник серии на производительных ядрах.

Intel видит себя в сильной позиции, несмотря на нынешний бум ИИ, а может быть, и благодаря ему: ранее компания сосредоточила значительную часть информации о Sapphire Rapids на приложениях ИИ. Теперь эта стратегия продолжается и с поколением Emerald Rapids, хотя на рынке ИИ сегодня в приоритете быстрые ИИ-ускорители или, по крайней мере, за них просят приличную сумму. Но Intel видит себя в хорошей позиции и здесь, в том числе по перспективам продаж своих компонентов - даже если не затрагивать Gaudi 2 как специализированный ускоритель ИИ. По мнению Intel, центры обработки данных на чистых Xeon гораздо более гибкие, поскольку можно выполнять как стандартные приложения, так и приложения ИИ, и именно такие смешанные рабочие нагрузки являются сильной стороной процессоров Xeon.

Процессоры Sapphire Rapids и Emerald Rapids устанавливаются на платформу Eagle Stream. То есть серверы, использующие процессоры Sapphire Rapids, можно перевести на Emerald Rapids. По-прежнему остались 80 линий PCI Express 5.0 и восемь каналов памяти DDR5, хотя есть и несколько улучшений.

Intel перенесла некоторые изменения с ранее выпущенной платформы для настольных ПК Raptor Lake в 5-е поколение Xeon.

Все тот же техпроцесс Intel 7, но новые ядра

Производство трех кристаллов для процессоров Emerald Rapids будет по-прежнему осуществляться по техпроцессу Intel 7. Однако, как и в случае с настольными процессорами, Intel говорит об улучшенном производстве, так называемом "Intel 7 Ultra". Была улучшена подвижность каналов, теперь можно выбирать другие рабочие точки на кривой напряжение-частота. В результате процессоры Xeon должны работать эффективнее, что подтверждается соответствующими цифрами.

Микроархитектура теперь основана не на дизайне Willow Cove, а на Raptor Cove с 2 МБ выделенного кэша L2 на ядро и улучшенной диспетчеризацией.

Максимальный уровень расширения Emerald Rapids теперь составляет 64 ядра вместо прежних 60. Также Intel использует только два кристалла XCC вместо прежних четырех. Об этом мы еще поговорим в разделе корпусировки. В плане тактовой частоты ядер изменений немного. Максимальная тактовая частота составляет 4,1 ГГц.

Скорость работы памяти DDR5 увеличилась с 4.800 МТ/с у Sapphire Rapids до 5.600 МТ/с у Emerald Rapids. Однако это относится не ко всем моделям, поскольку, как и в случае с 4-м поколением Xeon, есть свои градации. Если брать максимум, пропускная способность памяти теоретически увеличивается на 16%. Но гораздо интереснее кэш-память последнего уровня (LLC), которая увеличилась с прежних максимальных 105 МБ до 320 МБ. Что особенно полезно для приложений, которые могут хранить почти все свои данные в кэше. Данные можно получать и обрабатывать очень быстро, что полезно для приложений инференса, например.

Для связи между двумя и более сокетами Intel использует Ultra Path Interconnect (UPI). В Emerald Rapids Intel ускоряет каналы UPI 2.0 с 16 до 20 ГТ/с. Однако следует отметить, что в 5-м поколении Xeon не будет процессоров для систем 4S или 8S. CPU Emerald Rapids фокусируются исключительно на серверах 1S и 2S. Клиентам, у кого системы используют четыре и более сокетов, придется довольствоваться Sapphire Rapids.

Количество IP-блоков ускорителей не изменилось. Кристалл XCC предлагает в кластере ускорителей:

  • 4x DSA
  • 4x QAT
  • 4x DLB
  • 4x IAA

Кристаллы MCC и EE-LCC предлагают:

  • 1x DSA
  • 2x QAT
  • 2x DLB 
  • 1x IAA

На этом этапе мы хотели бы еще раз объяснить функции отдельных ускорителей:

  • QAT (QuickAssist Technology): ускоритель входит в состав ядра и обеспечивает шифрование и сжатие потоков данных. Два типичных сценария QAT – Network Secure Gateways и Content Delivery Networks.
  • DLB (Dynamic Load Balancer): DLB обеспечивает более эффективную балансировку нагрузки и равномерное использование ядер в менее требовательных сценариях. Как в случае QoS, некоторые пакеты в конвейере обрабатываются в приоритете.
  • DSA (Data Streaming Accelerator): для доступа к памяти больше не требуется обращение к ядрам, что снимает часть нагрузки. Ускоритель будет полезен для сценариев анализа данных и распределенных сервисов хранения данных.
  • IAA (In-Memory Advanced Analytics Accelerator): при чтении или записи данных в память распаковка или сжатие выполняются в IAA, после чего данные передаются в LLC. Здесь типичными сценариями можно назвать базы данных, хранящиеся полностью в памяти (In-Memory), анализ данных и базы данных в целом.

Также отметим матричные расширения Advanced Matrix Extensions (AMX). Intel установила блоки AMX и AVX в каждое ядро процессора. А остальные ускорители подключаются снаружи как часть кластера ускорителей.

«Похудевшая» корпусировка для снижения задержек

Четвертое поколение Xeon, также известное как Sapphire Rapids, состояло из четырех кристаллов XCC (Extreme Core Count) или одного MCC (Medium Core Count). Для Emerald Rapids Intel упростила конструкцию, теперь используются, максимум, два тайла XCC.

На один XCC-тайл приходится 33 ядра, из которых активны, максимум, 32. Это означает, что CPU с наибольшим количеством ядер предлагает 64 ядра. Тайлы разделяют на южный и северный, они расположены зеркально друг другу. Два тайла соединяются друг с другом тремя интерфейсами EMIB.

Тайл MCC предлагает, максимум, 32 ядра, хотя технически можно было бы использовать 34 ядра. Но и здесь Intel ограничивает чип 32 ядрами, чтобы лучше контролировать производство. В 5-м поколении Xeon Intel также возвращает кристаллы EE LCC (Edge Enhanced Low Core Count). Они предлагают до 20 ядер, но будут использоваться только в некоторых моделях.

Intel не предоставила никакой информации о размерах тайлов. Однако можно предположить, что для MCC Intel наверняка приблизилась к текущему максимуму почти 700 мм².

Сокращение числа тайлов с четырех до двух дает некоторые преимущества, даже если отдельные тайлы станут больше по площади. Например, уменьшаются задержки при обмене данными между кристаллами. Более крупный LLC также позволяет увеличить частоту попаданий в кэш, что, в свою очередь, снижает трафик данных и, следовательно, делает модель более эффективной. Для кластеризации sub-NUMA Intel предлагает SNC2.

Повышение эффективности при частичной нагрузке

Intel уже представила режим оптимизированного питания (Optimized Power Mode, OPM) в 4-м поколении Xeon, который должен обеспечить снижение энергопотребления при частичной нагрузке. Для Emerald Rapids Intel еще сильнее оптимизировала OPM и снова значительно снизила энергопотребление при нагрузке 50% и менее. В этом диапазоне и в режиме бездействия Intel говорит об экономии до 110 Вт.

Были оптимизированы интерконнекты, mesh-соединения и FIVR (Fully Integrated Voltage Regulator). Процессоры быстрее меняют свои рабочие точки и, следовательно, работают эффективнее.

Изменения кажутся незначительными, однако они могут быстро дать положительный эффект в центрах обработки данных с сотнями или даже тысячами серверов. Конечно, провайдеры стремятся максимально использовать свое оборудование, и простаивающие серверы – в той или иной степени зря потраченные деньги. Но на практике оптимизация при частичных нагрузках лишней не будет.

Для AVX512 и AMX предусмотрены новые уровни нагрузки, при которых выставляется разная тактовая частота. С одной стороны, это позволяет повысить пиковую производительность, а с другой – дает потенциал для повышения эффективности.

Собственные тесты производительности Intel впечатляют

Конечно, Intel опубликовала собственные бенчмарки. В них пятое поколение Xeon сравнивается как со своим прямым предшественником, так и с третьим поколением, которое считается наиболее вероятным для обновления. В частности, Intel сравнивает 56 ядер Sapphire Rapids с 64 ядрами Emerald Rapids и с максимальными 40 ядрами 3-го поколения Xeon (Ice Lake).

Прирост производительности получается пропорциональный. С одной стороны, он связан с увеличением количества ядер с одновременным изменением архитектуры. С другой стороны, Intel делает упор на AMX для приложений искусственного интеллекта и интегрированные ускорители, начиная с 4-го поколения.

По сравнению с Sapphire Rapids прирост производительности процессоров Emerald Rapids в приложениях общего назначения составляет 21%. Приложения HPC и AI выигрывают от увеличенного кэша примерно на 40%. Если вернуться к 3-му поколению Xeon, то прирост производительности составит 80% или даже больше. Использование AMX, конечно же, особенно заметно в приложениях для инференса и, соответственно, ИИ.

Если рассматривать только ускорители, то для некоторых приложений получается удвоение производительности по сравнению с приложениями без них. По всей видимости программное обеспечение, которое может использовать ускорители, распространилось уже весьма широко. В случае грядущих Granite Rapids Intel наверняка снова значительно улучшит ускорители и их количество.

CXL 1.1 должен окончательно закрепиться

Compute Express Link, или сокращенно CXL, похоже, постепенно набирает обороты. И AMD, и Intel поддерживают CXL 1.1, но не весь набор функций. Физической основой CXL является PCI Express 5.0.

Emerald Rapids поддерживает CXL 1.1 в той же степени, что и Sapphire Rapids. Однако аппаратное обеспечение CXL получило дальнейшее развитие, как и сами процессоры. CXL позволяет расширять память через CXL.mem. Поддерживается до четырех устройств, хотя на слайде Intel говорит о двух устройствах по четырем каналам. Теоретически, на один канал можно подключить одно устройство, но по соображениям более высокой пропускной способности обычно используются два канала на устройство.

CXL позволяет значительно расширить емкость памяти, пусть и не по такому скоростному подключению, как у памяти DDR5. 320 МБ LLC плюс 4 ТБ оперативной памяти теперь можно дополнительно расширить через CXL. Samsung уже представила соответствующие 128-Гбайт модули CXL 2.0 DRAM, которые работают на 35 ГБ/с.

Оптимизация семейства продуктов

Перейдем к линейке процессоров Xeon пятого поколения, также известных как Emerald Rapids. Как и прежде, Intel предлагает модели или целые серии, оптимизированные под конкретные приложения внутри этих серий:

  • Облако: серии P и V
  • Сети: серия N
  • Системы хранения данных: серия S
  • 1-сокетные серверы: серия U
  • Экономичные системы: серия T
  • С водяным охлаждением: серия Q

Сразу же бросается в глаза отсутствие вариантов 5-го поколения процессоров Xeon для систем 4S и 8S. Как уже упоминалось, данной группа клиентов придется довольствоваться 4-м поколением.

Внутри продуктовых групп также заметно, что DDR5-5600 поддерживается только в процессорах общего назначения серии Platinum. Для Gold и Bronze обычно предлагается только DDR5-5200 вплоть до DDR5-4400. Такое уже было в 4-м поколении Xeon, но не в таких масштабах. Таким образом, более высокую пропускную способность памяти клиенты получат только с соответствующими моделями.

Цены на процессоры Emerald Rapids немного выше, но не чрезмерно. Топовая модель с 64 ядрами стоит 11.600 долларов США. Младшая модель с восемью ядрами доступна всего за 415 долларов США.

Также стоит отметить, что все CPU теперь поддерживают TDX (Trust Domain Extensions), что позволяет изолировать отдельные виртуальные машины. В случае 4-го поколения Xeon поддержка была не во всех CPU. Количество ускорителей зависит от конкретной модели. OEM и системные интеграторы по-прежнему будут предлагать сервис On Demand. Intel предоставляет только интерфейс для него. То есть клиент может купить сервер моделью CPU, в которой нет или очень мало ускорителей, но позднее добавить их за доплату. В этой модели ничего не меняется.

Процессоры 5-го поколения Xeon доступны уже сейчас. Соответствующие серверы можно приобрести у крупных OEM-производителей и системных интеграторов. Крупнейшие гиперскейлеры уже начали использовать соответствующие процессоры. Переход между поколениями Xeon для крупных облачных провайдеров будет плавным - старые серверы будут сняты с площадок через определенное время, а новые будут оснащены уже Emerald Rapids.

Мы рекомендуем ознакомиться с нашим руководством по выбору лучшего процессора Intel и AMD на текущий квартал. Оно поможет выбрать оптимальный CPU за свои деньги и не запутаться в ассортименте моделей на рынке.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).