> > > > ARM CSS N3 и V3: новое поколение Neoverse для кастомных чипов ARM

ARM CSS N3 и V3: новое поколение Neoverse для кастомных чипов ARM

Опубликовано:

hardwareluxx news newЛетом прошлого года ARM представила вычислительную подсистему Neoverse Compute Subsystem (CSS) на дизайнах N2 и V2 для центров обработки данных. Neoverse CSS – это референсная платформа для разработки ARM-процессоров для ЦОД. В последние месяцы платформа привлекла немало внимания, особенно в собственных разработках облачных провайдеров.

NVIDIA использует дизайн V2 для своего ускорителя Grace Hopper (GH100, GH200) и в DPU Bluefield, а AWS использует дизайн ARM в своих процессорах Trainium 2 и Graviton 4, а также в DPU Nitro. Совсем недавно, в ноябре, Microsoft представила процессор Cobalt 100 и ускоритель Maia 100, которые будут использоваться в собственных приложениях и в рамках предложения Azure.

Продолжит ли ARM завоевывать рынок центров обработки данных? Сложно сказать, но дизайн чипов отлично подходит для гиперскейлеров. Здесь в фокусе эффективность, а не пиковая производительность.

ARM представила дизайн Neoverse CSS N3 и Neoverse CSS V3 для следующего поколения платформы Nerverse. ARM предлагает эталонный дизайн, на основе которого клиенты могут создавать собственные чипы. По сравнению с полной собственной разработкой с нуля, заказчик экономит время и деньги, причем выпустить чип можно уже через девять месяцев после старта проекта. Кроме того, можно сэкономить около 80 инженеро-лет, что тоже сказывается на затратах.

Дизайны N рассчитаны на максимальную эффективность, в прошлом они предлагали до 64 ядер. Референсный дизайн ARM CSS N3 предусматривает 32 ядра, эффективность в расчете на ядро на 20% выше, чем в случае CSS N2. Один чип может содержать от восьми до 32 ядер. По данным ARM, целевой показатель TDP для такого дизайна может быть установлен на уровне 40 Вт, причем максимальная эффективность достижима с учетом определенного техпроцесса, который пока не называется. Чиплет может быть объединен с несколькими другими процессорами или чиплетами через интерфейс Die-to-Die. Также возможно подключение других ускорителей.

ARM не предоставляет подробностей о ядрах и структуре чипов. На блок-схеме показаны два интерфейса ввода/вывода и двухканальный интерфейс памяти DDR5.

Подсистема CMN S3 для платформы Neoverse теоретически поддерживает до 256 ядер на кристалле и 512 ядер на сокете. Однако пока такие чипы, скорее всего, не будут доступны, поскольку существуют производственные ограничения на размер одного кристалла, которые невозможно обойти. В ближайшей перспективе ARM ожидает появления чипов CSS N3 и CSS V3 с максимальным количеством ядер от 96 до 192. Теперь мы переходим к дизайну CSS V3.

Вторым столпом платформы Neoverse CSS являются дизайны V, и здесь речь идет о новой версии V3. Процессоры V3, как утверждается, на 50% быстрее на сокет, чем CSS N2. В эталонной реализации ARM предусматривает до 64 ядер, но возможно использование до 128 ядер. Что касается функциональности ввода/вывода, ARM упоминает PCI Express 5.0 и CXL 3.0. Интерфейс памяти поддерживает DDR5, LPDDR5 и HBM3.

Два интерфейса die-to-die можно использовать для подключения внешнего ускорителя в виде чиплета. Ближе всего здесь пример ускорителя Grace Hopper от NVIDIA. Интерфейс также поддерживает Universal Chiplet Interconnect Express или сокращенно UCIe.

Оба чипа CSS N3 и CSS V3 опираются на архитектуру Armv9 с набором инструкций AArch64 и расширением Scalable Vector Extensions (SVE2). Однако ARM пока не сообщает никаких дополнительных подробностей. Что касается бенчмарков, то в сравнительных тестах ARM указывает до восьми каналов памяти DDR5 на частоте до 7.200 MT/s.

Более высокая производительность ИИ благодаря большему кэшу и быстрой памяти

ARM еще раз обратила внимание на последствия нынешнего бурного развития ИИ. Все проекты заказчиков, которые мы упоминали выше, разработаны с учетом нынешней тенденции как для тренировки, так и инференса.

ARM утверждает, что производительность ИИ в дизайнах N3 и V3 выросла на 196% и 84% соответственно благодаря улучшенному предсказанию переходов и увеличенному кэшу L2 (теперь 2 Мбайт на ядро в дизайне N3 и 3 Мбайт в дизайне V3). Модель Llama-2 с семью миллиардами параметров работает быстрее на 23% (на 23% больше токенов в секунду) благодаря программным и аппаратным оптимизациям по сравнению с Neoverse V1 и V2.

Если говорить о распределении вычислительных задач в этом сегменте, то ARM отводит инференсу LLM 80%, а остальные 20% приходятся на тренировку. Поэтому и распределение аппаратных компонентов соответствующее.

В дополнение к оптимизации микроархитектуры, дизайны CSS V3 должны выиграть от подключения быстрой DDR5/LPDDR5 или HBM3.

Помимо высокой производительности в области искусственного интеллекта, процессоры CSS N3 и CSS V3 должны превосходить конкурентов от AMD и Intel и в других областях. ARM называет несколько явных преимуществ перед вышеупомянутыми конкурентами в случае с базами данных, Java или XGBoost.

Chiplet System Architecture (CSA)

ARM продвигает архитектуру Chiplet System Architecture (CSA). Как и в случае с дизайнами CSS N2 и CSS V2, речь идет о структуре из чиплетов. Они могут объединяться с другими компонентами по мере необходимости. Причем ARM гарантирует, что дизайн CSS N3 и CSS V3 совместим с другими чиплетами посредством стандартной физической реализации и протоколов. Ключевым словом здесь является UCIe. Однако до сих пор такая комбинация ядер ARM и внешнего ускорителя использовалась только в NVIDIA GH100/GH200.

Поэтому интересно узнать, получат ли первые дизайны CSS N3 и CSS V3 дальнейшее развитие в этом направлении и будут ли другие производители использовать свой собственный подход к чиплетам помимо ядер ARM.

Планы платформы Neoverse

ARM также представила планы будущих продуктов Neoverse.

За CSS V2 (Demeter) и CSS N2 (Perseus) в настоящее время следуют CSS V3 (Poseidon) и VSS N3. Следующим поколением будет Adonis для потенциальной V4 и Dionysus для потенциального дизайна N4. ARM продолжает использовать вселенную греческих богов.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).