Hardwareluxx > Новости > Железо > Видеокарты > Intel Vision 2024: Gaudi 3 даст фору NVIDIA H100 и H200 по производительности

Intel Vision 2024: Gaudi 3 даст фору NVIDIA H100 и H200 по производительности

Опубликовано: 09.04.2024 в 20:21 Андрей Шиллинг

hardwareluxx news new Недавно Intel представила свой ускоритель Gaudi 2 в качестве недорогой и, главное, доступной альтернативы вездесущим AI-ускорителям NVIDIA. Однако, когда дело доходит до чистой производительности, NVIDIA вряд ли удастся обойти, и решение Intel уже кажется сравнительно устаревшим на рынке самых быстрых ИИ-ускорителей – даже без учета Instinct MI300X/A от AMD, который, вероятно, займет место между NVIDIA и Intel по производительности. Но для ускорителей AMD пока нет достоверных данных производительности, масштабы установки кажутся довольно небольшими.

Теперь Intel делает еще один шаг вперед: на конференции Vision 2024 был представлен ускоритель Gaudi 3, который должен догнать NVIDIA с технической точки зрения и позволит Intel занять место среди лидеров рынка.

С точки зрения архитектуры Gaudi 2 и Gaudi 3 очень похожи. По структуре они ничем не отличаются от GPU Blackwell от NVIDIA. Intel упаковывает вместе два вычислительных тайла. Они производятся по техпроцессу 5 нм на мощностях TSMC.

Очень похожая структура становится очевидной, если присмотреться к деталям. Gaudi 2 опирался на 24 ядра Tensor Processor Cores (TPC). Gaudi 3 использует 2x 32 ядра TPC, которые основаны на архитектуре VLIW (Very Long Instruction Word). Они представляют собой векторные блоки SIMD (Single Instruction Multiple Data) и поддерживают 2.048-битные операции с широким спектром типов данных. Базовая архитектура не изменилась, за исключением количества TPC.

В Gaudi 3 используется 48 МБ SRAM на тайл. Общий объем памяти ускорителя искусственного интеллекта составляет 96 МБ, в то время как в однокристальном решении Gaudi 2 он составляет 48 МБ. 96 МБ SRAM работают с пропускной способностью 12,8 ТБ/с. Относительно небольшой прогресс был достигнут в области памяти и ее расширения. Если в Gaudi 2 подключались 96 ГБ на скорости 2,45 ТБ/с, то в Gaudi 3 – уже 128 ГБ на 3,7 ТБ/с. Причем по-прежнему используется HBM2E. По всей видимости, при разработке ускорителя Gaudi 3 было уже слишком поздно для перехода на HBM3.

Для тренировки и инференса на ускорителе ИИ важно соединять чипы с другими, которые работают вместе в кластере. На данный момент Gaudi 3 полагается на PCI Express 5.0 и 16 линий. Однако в ускорителе Gaudi важную роль играет и быстрое Ethernet-соединение. Вместо 24x 100 GbE, как в Gaudi 2, Intel удваивает доступную пропускную способность до 24x 200 GbE.

Различные варианты дизайна

Intel выпустит на рынок ускоритель Gaudi 3 в трех вариантах: в качестве OAM-карты (HL-325L) Gaudi 3 достигает производительности 1.835 TFLOPS (FP8). При использовании воздушного охлаждения TDP составляет 900 Вт. При водяном охлаждении ускоритель способен достичь еще большего.

Однако ускоритель редко будут использовать сам по себе. Поэтому Intel предлагает базовую плату (HLB-325), на которую устанавливаются восемь Gaudi 3. Они подключаются непосредственно друг к другу через PCB, в качестве интерфейсов используются сетевые карты ускорителей. Для прямого подключения задействуются 21 или 24 сетевых порта. Три используются для подключения нескольких базовых плат.

Третья реализация также появится несколько позже: PCIe-карта (HL-338). Здесь Intel также указывает пиковую вычислительную мощность в 1.835 TFLOPS (FP8). Однако она не будет постоянно доступна из-за TDP в 600 Вт. Четыре карты Gaudi 3 PCI Express можно соединить друг с другом через плату Top Board. На самих картах также имеются два сетевых разъема.

Масштабирование до более чем 8.000 Gaudi 3

Важным фактором в реализации серии Gaudi, в том числе и Gaudi 3, является быстрое подключение через GbE-соединения. Intel намеренно выбрала открытый стандарт. NVIDIA полагается на NVLink для узлов и кластеров, за их пределами используется InfiniBand, хотя между стойками также может использоваться Ethernet.

Intel масштабирует в одном узле восемь ускорителей. Их, в свою очередь, можно объединить в кластер с 64 узлами и, соответственно, 512 ускорителями.

Также можно создать кластер с 512 узлами, что означает совместную работу 4.096 ускорителей. Для теоретически максимального расширения Intel предусматривает 1.024 узла с 8.192 ускорителями. Такой кластер все равно будет сравнительно небольшим. NVIDIA допускает значительно большее расширение, и два кластера ИИ от Meta уже выросли до 24.576 ускорителей H100.

Как уже упоминалось, каждый ускоритель Gaudi 3 обеспечивает до 24 соединений 200 GbE. На уровне узла для прямых соединений между ускорителями используется 21 сетевой порт. Три 200 GbE от каждого из восьми ускорителей проходят через Retimer и объединяются в шесть OSPF-соединений, каждое из которых может обеспечить 800 Гбит/с.

Если перейти на уровень субкластера, то объединяются 16 узлов с восемью ускорителями в каждом. Каждый узел предлагает 6x 800GbE, при этом по два соединения направляются на каждый из трех leaf-коммутаторов.

Если перейти на следующий уровень с 32 кластерами, 512 узлами и 4.096 ускорителями Gaudi 3, то будет использовано в общей сложности 96 leaf-коммутаторов, которые, в свою очередь, соединены друг с другом с помощью 3x 16 spine-коммутаторов. Эти коммутаторы имеют по 64 порта 800GbE. Для кластера с 512 узлами используется в общей сложности 144 коммутатора с портами 800GbE, что подчеркивает сложность такого кластера с точки зрения сетевой инфраструктуры.

Сравнение производительности с NVIDIA

Основываясь на собственных прогнозах, Intel решила провести сравнение с ускорителями NVIDIA H100 и H200. В настоящее время Gaudi 3 находится на стадии валидации. То есть реальные чипы все еще тестируются в лабораториях, состояние чипа еще не финальное. Поэтому можно говорить лишь о предварительной оценке ожидаемой производительности.

В своих прогнозах Intel уверена, что сможет конкурировать с NVIDIA. Ожидается, что тренировка LLM будет выполняться на 40-70% быстрее. Как и в случае с тренировкой, инференс зависит от конкретной модели LLM. Для Llama с 7 и 70 миллиардами параметров прирост производительности иногда составляет -10%, а иногда +70%. Инференс в более крупные модели, такие как Falcon со 180 миллиардами параметров, узел с восемью ускорителями Gaudi 3 будет выполнять до четырех раз быстрее.

Intel также занимает более выгодное положение с точки зрения эффективности. Нормируя по производительности восьми ускорителей H100, Intel предполагает, что эффективность Gaudi 3 может быть выше в 1,2-2,3 раза (токены в секунду на карту на ватт). Здесь также есть определенная зависимость от используемой модели.

Программное обеспечение тоже развивается

Значимость программного обеспечения хорошо известна. За последние несколько месяцев Intel неоднократно улучшала программное обеспечение для своего ускорителя Gaudi 2, позволяя использовать новые форматы данных и оптимизируя весь программный стек.

В своем программном обеспечении Intel планирует поддерживать наиболее важные фреймворки, такие как PyTorch, DeepSpeed, Huggingface и Mosaic. Кроме того, существуют такие репрезентативные модели ИИ, как Llama, Mistral, GPT, Falcon и другие, для которых Intel соответствующим образом оптимизировала свое программное обеспечение.

Ускоритель Gaudi 3 формирует своего рода аппаратный мост к Falcon Shores. Изначально Falcon Shores должен был использовать ядра CPU и GPU. Однако после смены цели разработки Falcon Shores весной 2023 года Intel дала понять, что изначально Falcon Shores будет чисто GPU.

Для разработчиков переход с Gaudi 3 на Falcon Shores произойдет без каких-либо серьезных изменений. Intel по-прежнему опирается на свой стек программного обеспечения, который адаптирован соответствующим образом.

Цель – не просто в альтернативе

В стремительно развивающемся мире ускорителей ИИ Intel в последнее время не может угнаться в плане аппаратного обеспечения. Ускоритель Gaudi 2 был представлен еще в 2019 году, а на рынке появился в 2020-м. Благодаря многочисленным программным оптимизациям используемых типов данных Gaudi 2, по крайней мере, удалось не отстать в плане доступности и цены. Но Intel, безусловно, стремится быть не просто альтернативой NVIDIA.

В настоящее время неясно, насколько хорошо будет позиционироваться AMD Instinct MI300A/X. Выпустив Gaudi 3, Intel поставила перед собой цель быть как минимум на одном уровне с NVIDIA, а то и выше. Показанные бенчмарки, основанные на собственных прогнозах Intel, уже весьма интересны. Прогнозы могут оказаться довольно точными, но пока это всего лишь прогнозы.

Intel планирует поставлять первые образцы партнерам с первой половины 2024 года. Это означает, что они должны быть готовы в ближайшие недели. Во второй половине года ожидаются более крупные объемы, так что партнеры также смогут поставлять их клиентам в больших количествах. Однако первоначально речь идет только о варианте OAM и базовой платы Baseboard с восемью ускорителями. Версия PCIe появится только в конце этого года.

Первые реальные тесты и независимые бенчмарки должны будут показать, действительно ли ускорители находятся на одном уровне с NVIDIA.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).