AMD sta facendo passi da gigante per affrontare le sfide crescenti dell’intelligenza artificiale, concentrandosi su un’innovazione che abbraccia ogni componente essenziale: CPU, GPU e networking. Durante l’evento Advancing AI 2024, l’azienda ha riconosciuto la crescita esponenziale dei modelli di AI e la necessità di una infrastruttura potente e scalabile per sostenere i carichi di lavoro emergenti.
Lisa Su, CEO di AMD, ha dichiarato che AMD è l’unica azienda in grado di offrire un set completo di soluzioni per CPU, GPU e reti, con il preciso scopo di nutrire la “bestia dell’intelligenza artificiale”. Questo approccio è sostenuto da prodotti innovativi come l’adattatore di rete AI Polara 400 e la DPU Selena di terza generazione, progettati per garantire una comunicazione fluida tra i cluster AI e migliorare la gestione della congestione. Tali innovazioni consentono tempi di addestramento dell’AI fino a sei volte più rapidi, posizionando AMD come leader del settore.
Soni Jiandani, vicepresidente senior del settore networking di AMD, ha sottolineato come il networking sia fondamentale per raggiungere le massime prestazioni con i carichi di lavoro AI. Il nuovo adattatore Polara 400, compatibile con UEC, migliora la comunicazione GPU, riducendo la congestione e aumentando l’efficienza operativa. La DPU Selena, invece, offre una capacità di elaborazione fino a 400 GB e incrementa la sicurezza e il bilanciamento del carico.
AMD ha anche collaborato con Cisco e Microsoft per sviluppare uno Smart Switch AI di nuova generazione, integrando la DPU di AMD per migliorare le prestazioni delle reti AI, riducendo la necessità di elaborazione delle CPU e GPU. Questa partnership aiuta a costruire una rete più efficiente, capace di scalare per soddisfare le crescenti richieste dell’AI.
Un altro elemento chiave della strategia di AMD è l’uso dell’Ethernet come fondamento per le reti AI. Jiandani ha spiegato che Ethernet è la soluzione più scalabile e conveniente per i carichi di lavoro AI, offrendo risparmi sui costi e vantaggi in termini di scalabilità rispetto ad altre tecnologie come Infiniband. L’adattatore Polara 400 e la DPU Selena sono centrali per questa infrastruttura basata su Ethernet, che consente una gestione del traffico dati più efficiente e una scalabilità senza precedenti.
AMD si sta anche concentrando sulla standardizzazione dei protocolli Ethernet per l’AI, guidando l’Ultra Ethernet Consortium, una coalizione di 97 fornitori del settore. Questo approccio aiuterà a creare un ecosistema robusto per l’intelligenza artificiale ad alte prestazioni e il cloud computing.
Infine, il motore P4 di AMD, completamente programmabile, è destinato a rivoluzionare il networking per l’AI. Questo motore, integrato nelle DPU Polara e Selena, permette una velocità di trasmissione di 400 gigabit e una scalabilità per milioni di GPU, offrendo ai carichi di lavoro AI la flessibilità necessaria per evolversi con le esigenze del settore.
Con queste innovazioni, AMD non solo sta affrontando le sfide dell’intelligenza artificiale su larga scala, ma sta anche definendo nuovi standard di riferimento per prestazioni, scalabilità e efficienza nelle reti e nei data center.