Nel recente articolo del blog intitolato “Behind the Compute”, Stability AI ha svelato risultati sorprendenti riguardanti le prestazioni degli acceleratori Intel Gaudi 2 rispetto all’H100 di NVIDIA nell’addestramento e nell’inferenza del suo prossimo modello di generazione di immagini Stable Diffusion 3.
Il modello testo-immagine di Stability AI ha mostrato risultati promettenti nell’analisi delle prestazioni. Utilizzando la versione del trasformatore di diffusione multimodale (MMDiT) con parametri 2B, Stability AI ha confrontato la velocità di training degli acceleratori Intel Gaudi 2 con quelli A100 e H100 di NVIDIA.
In una configurazione a 2 nodi, il sistema Intel Gaudi 2 ha elaborato 927 immagini di training al secondo, superando di 1,5 volte l’H100-80GB di NVIDIA. Aumentando ulteriormente la dimensione del batch a 32 per acceleratore in Gaudi 2, si è ottenuta una velocità di training di 1.254 immagini al secondo.
Nella configurazione a 32 nodi, il cluster Gaudi 2 ha elaborato oltre 3 volte più immagini al secondo rispetto alle GPU NVIDIA A100-80GB, nonostante queste ultime abbiano uno stack software altamente ottimizzato.
Nei test di inferenza con il modello Stable Diffusion 3 8B, i chip Gaudi 2 hanno offerto una velocità di inferenza simile ai chip NVIDIA A100 utilizzando PyTorch di base.
Tuttavia, Stability AI ha ammesso che con l’ottimizzazione TensorRT, i chip A100 hanno prodotto immagini il 40% più velocemente di Gaudi 2. Tuttavia, prevedono che Gaudi 2 supererà gli A100 con ulteriori ottimizzazioni, supportate anche dai prossimi processori GH200 che potrebbero essere annunciati al GTC 2024 questo mese.
Pochi mesi fa, AMD ha affermato di aver superato NVIDIA H100 in vari parametri prestazionali, ma è stato successivamente smentito da NVIDIA in quanto AMD non aveva incluso l’ottimizzazione TensorRT nei test.
Intel ha lanciato il suo acceleratore AI Gaudi 3, che renderà questa competizione ancora più interessante in futuro.
Inoltre, Stable Beluga 2.5 70B, la versione ottimizzata di LLaMA 2 70B di Stability AI, ha mostrato prestazioni impressionanti su acceleratori Intel Gaudi 2, generando un throughput medio di 116.777 token al secondo, il 28% più veloce dei test di inferenza con il modello linguistico 70B su NVIDIA A100.