CoreWeave ha annunciato nuovi risultati nei benchmark MLPerf Training v6.0, ottenendo quello che viene indicato come il più rapido addestramento mai registrato per il modello DeepSeek-V3 all’interno della suite di test MLPerf. La piattaforma è riuscita a completare il benchmark del modello DeepSeek-V3 da 671 miliardi di parametri in circa 2,02 minuti utilizzando un’infrastruttura composta da 8.192 GPU NVIDIA GB300 NVL72 distribuite su 2.048 nodi.
Il risultato è stato ottenuto nell’ambito di MLPerf Training v6.0, il principale benchmark industriale sviluppato da MLCommons per misurare la velocità con cui un sistema riesce ad addestrare un modello AI fino al raggiungimento di un obiettivo qualitativo predefinito. A differenza dei semplici test sintetici, MLPerf valuta il tempo necessario per completare effettivamente il processo di training mantenendo parametri e criteri di qualità comparabili tra le diverse piattaforme hardware e software.
L’edizione v6.0 introduce tra le novità proprio DeepSeek-V3 come benchmark ufficiale. Il modello rappresenta una delle implementazioni più complesse oggi presenti nella suite MLPerf grazie alla sua architettura Mixture-of-Experts (MoE), una tipologia di modello che attiva soltanto una parte degli esperti disponibili durante ogni fase di elaborazione. Questa caratteristica consente di aumentare la capacità complessiva del sistema mantenendo più efficiente l’utilizzo delle risorse computazionali, ma introduce anche nuove sfide in termini di distribuzione del carico e comunicazione tra migliaia di acceleratori.
Il record ottenuto da CoreWeave è legato non soltanto alla disponibilità di un numero elevato di GPU, ma soprattutto alla capacità di coordinare in modo efficiente migliaia di dispositivi durante le fasi di addestramento distribuito. Nei modelli di grandi dimensioni, infatti, il principale limite non è la potenza di calcolo teorica, ma la velocità con cui i nodi riescono a scambiarsi parametri, gradienti e dati durante ogni iterazione del training. Ritardi, sincronizzazioni inefficienti o congestioni della rete possono ridurre drasticamente le prestazioni effettive di un cluster AI di grandi dimensioni.
La configurazione utilizzata si basa sulle nuove piattaforme NVIDIA GB300 NVL72, progettate specificamente per i carichi di lavoro AI su larga scala. Questi sistemi integrano GPU Blackwell di nuova generazione e architetture ad alta larghezza di banda pensate per ridurre i tempi di comunicazione tra acceleratori, uno degli aspetti più critici nell’addestramento di modelli con centinaia di miliardi di parametri. CoreWeave attribuisce parte significativa del risultato alle ottimizzazioni effettuate a livello infrastrutturale, di rete e software lungo l’intero stack della piattaforma cloud.
I benchmark MLPerf v6.0 mostrano inoltre una crescente attenzione verso modelli basati su sparse computation e architetture MoE. L’edizione attuale ha infatti introdotto nuovi benchmark progettati per rappresentare in modo più realistico i carichi di lavoro delle moderne AI generative, che stanno progressivamente sostituendo i tradizionali modelli densi nelle applicazioni di frontiera. Questo rende i risultati ottenuti su DeepSeek-V3 particolarmente significativi perché riflettono scenari sempre più vicini alle esigenze operative dei grandi laboratori AI e dei fornitori di modelli generativi.
Per CoreWeave il risultato rappresenta un ulteriore passo nella competizione tra fornitori di infrastrutture AI. Negli ultimi anni l’azienda ha costruito la propria strategia attorno a cluster GPU di grandi dimensioni ottimizzati esclusivamente per carichi di lavoro legati all’intelligenza artificiale. I record ottenuti nei benchmark MLPerf vengono utilizzati per dimostrare la capacità della piattaforma di sostenere training distribuiti estremamente complessi mantenendo elevati livelli di efficienza e scalabilità.
L’addestramento di DeepSeek-V3 in poco più di due minuti non rappresenta naturalmente il tempo necessario per sviluppare un modello completo in un ambiente produttivo reale, ma costituisce un indicatore estremamente significativo delle prestazioni raggiungibili dalle moderne infrastrutture AI. Il risultato evidenzia soprattutto quanto rapidamente stiano evolvendo le piattaforme dedicate all’addestramento dei modelli di frontiera e come le nuove generazioni di acceleratori, reti ad alta velocità e ottimizzazioni software stiano riducendo progressivamente i tempi necessari per eseguire workload AI su scala massiva.
