In un’era in cui l’intelligenza artificiale spinge i confini del possibile, Microsoft ha appena svelato qualcosa che va ben oltre un semplice aggiornamento hardware: ha inaugurato quello che definisce il primo cluster di supercalcolo su scala reale con GPU NVIDIA Blackwell Ultra, chiamato GB300 NVL72, destinato a diventare l’ossatura fisica delle future generazioni dei modelli OpenAI.
Il 10 ottobre, il CEO Satya Nadella ha reso pubblico un video del cluster, sottolineando che non si tratta di una configurazione sperimentale isolata, ma di un modello strutturale che sarà replicato nei data center Azure sparsi nel mondo. Ogni rack NVL72 integra 72 GPU Blackwell Ultra e 36 CPU Grace, tutti interconnessi con tecnologia NVLink per formare un’unica unità acceleratrice condivisa, con memoria aggregata e larghezza di banda elevatissima.
Ciò che rende questo cluster un salto architetturale è la coerenza del design tra calcolo, memoria, rete e infrastruttura. Ogni rack dispone di circa 37 terabyte di memoria “veloce” (combinando HBM delle GPU e memoria LPDDR5X collegata alle CPU) e ha una potenza tensor FP4 (la modalità a bassa precisione ottimizzata per modelli linguistici) dell’ordine di 1.440 petaflop per rack. La rete interna (NVLink / NVSwitch) collega ogni GPU con larghezza aggregata di circa 130 TB/s, mentre le comunicazioni tra rack avvengono su InfiniBand Quantum-X800 con link da 800 Gbps per GPU.
Questa progettazione rende ogni rack un acceleratore a sé, riducendo la latenza e i colli di bottiglia che normalmente sorgono nei sistemi distribuiti: parti del modello, cache chiave/valore, contesti estesi e dati di lavoro possono restare residenti all’interno del dominio NVLink, anziché circolare continuamente tra host separati. Su larga scala, i rack sono collegati in una topologia non bloccante, con routing adattivo e meccanismi di aggregazione (come SHARP) per ottimizzare le operazioni collettive tipiche dell’addestramento e dell’inferenza di reti neurali.
Uno degli effetti pratici annunciati è la drastica riduzione dei tempi di addestramento: ciò che prima richiedeva mesi potrebbe essere compresso in settimane, grazie alla potenza combinata e alla memoria condivisa del cluster. Microsoft ha spiegato come l’architettura integrata — hardware, rete, memoria, raffreddamento — sia stata ripensata da zero per sostenere modelli di AI di frontiera.
Un elemento spesso trascurato quando si parla di acceleratori è l’infrastruttura fisica sottostante: il raffreddamento, la distribuzione energetica, la gestione dei carichi termici e la minimizzazione dell’acqua utilizzata. In questo cluster, Microsoft ha adottato soluzioni liquide modulari, scambiatori di calore indipendenti e strategie di raffreddamento progettate per limitare l’uso idrico pur sostenendo densità termiche elevate. Ogni rack NVL72 consuma decine di kilowatt, e il disegno del sito deve garantire stabilità elettrica e termica coordinate.
L’ambizione di Microsoft non si limita a un singolo cluster: l’obiettivo è dispiegare centinaia di migliaia di GPU Blackwell Ultra in oltre 300 data center in 34 paesi, creando un’infrastruttura globale capace di addestrare modelli con centinaia di trilioni di parametri. Il GB300 NVL72 appare come una pietra miliare lungo quella traiettoria.
Questo progetto è un’estensione dell’infrastruttura già esistente: Microsoft utilizza da tempo cluster basati su GPU NVIDIA (come la serie GB200) per supportare OpenAI, e il cluster GB300 sarà implementato anche nel nuovo data center “Fairwater” che Microsoft ha annunciato come il più grande al mondo, previsto per l’avvio nel prossimo anno.