Immagine AI

L’industria dell’Intelligenza Artificiale (IA) sta attraversando una fase di transizione strategica: mentre l’addestramento dei modelli rimane cruciale, il vero campo di battaglia economico e tecnologico si sta spostando sull’inferenza, ovvero l’erogazione di servizi IA agli utenti finali su larga scala. Per affermare la propria superiorità in questo mercato in rapida espansione, NVIDIA ha lanciato un’iniziativa ambiziosa, annunciando che i suoi server di nuova generazione basati sull’architettura Blackwell sono in grado di eseguire i modelli open source più avanzati, in particolare quelli basati sulla tecnologia Mixed Experts (MoE), fino a dieci volte più velocemente rispetto alla generazione precedente. Questo balzo prestazionale, abilitato dal server GB200 NVL72, non è solo un miglioramento hardware, ma una riorganizzazione strutturale pensata per la massima efficienza dei modelli moderni.

La tecnologia Mixed Experts (MoE) è rapidamente assurta al ruolo di mainstream nel settore IA globale, adottata da leader come OpenAI, Mistral e, in modo particolarmente incisivo, da aziende cinesi come DeepSeak e Moonshot AI. Questa tecnica si basa sul concetto di suddividere un modello di grandi dimensioni in molteplici “esperti” specializzati. Quando un utente pone una domanda, un router intelligente indirizza la richiesta solo a un piccolo sottoinsieme di questi esperti, rendendo l’inferenza e, talvolta, l’addestramento, molto più efficiente. Questo approccio consente di ottenere prestazioni elevate con l’attivazione di risorse computazionali limitate, ottimizzando l’uso dell’energia. Il successo e l’adozione diffusa di MoE hanno reso indispensabile per NVIDIA ottimizzare la propria architettura per gestirli al meglio.

La Soluzione Strutturale del GB200 NVL72Storicamente, l’espansione dei modelli MoE si è scontrata con un significativo collo di bottiglia legato al caricamento dei parametri. Le grandi quantità di dati e le attivazioni erano concentrate sulla memoria ad alta larghezza di banda HBM delle singole GPU. Per risolvere strutturalmente questo problema, NVIDIA ha concepito il suo nuovo server “GB200 NVL72” come una singola unità di calcolo massiva. La chiave del successo è stata la connessione di ben 72 GPU Blackwell attraverso l’interconnessione ad altissima velocità NVLink.

Questa architettura distribuita in modo così ampio riduce drasticamente il numero di esperti che una singola GPU deve gestire contemporaneamente. Distribuendo gli esperti su 72 GPU, si alleggerisce in modo significativo l’onere sul caricamento dei parametri della memoria HBM, consentendo di allocare tale capacità a un maggior numero di utenti simultanei e al supporto di lunghezze di input maggiori. L’intera struttura lavora in tandem per trasformare l’inferenza MoE da un processo congestionato a un’esecuzione fluida e parallela.

Oltre alla riorganizzazione del carico, NVIDIA ha potenziato enormemente la velocità di comunicazione. Gli esperti che risiedono su più GPU possono ora comunicare in tempo reale tramite NVLink. Il rapporto indica che persino lo switch NVLink ha ricevuto potenziamenti, arrivando a gestire direttamente una parte dei calcoli necessari per combinare le informazioni provenienti dai diversi esperti (il combining), accelerando ulteriormente la generazione della risposta finale.L’impatto di questa innovazione si è tradotto in numeri impressionanti.

NVIDIA ha annunciato che il GB200 NVL72 ha dimostrato un aumento fino a dieci volte delle prestazioni di inferenza rispetto al server H200 esistente durante l’esecuzione di modelli popolari come KIMI-K2-Syncing, DeepSeek-R1 e Mistral 3. Tale incremento non si limita alla velocità di elaborazione, ma si estende all’efficienza energetica, un fattore vitale per i datacenter su larga scala. Basandosi su una velocità tipica di 40 token al secondo, il GB200 NVL72 è in grado di elaborare oltre 5 milioni di token al secondo per megawatt (MW) di potenza. Questo salto di efficienza e prestazioni è un fattore determinante per tutte le aziende che gestiscono modelli su larga scala e che cercano di mantenere un vantaggio competitivo nel mercato dell’inferenza AI.

Di Fantasy