Immagine AI

Nell’era dell’intelligenza artificiale generativa, la vera battaglia per la supremazia tecnologica non si combatte solo sulla potenza dei modelli, ma sulla velocità con cui questi modelli riescono a rispondere in tempo reale. Questo processo, noto come inferenza AI, è il momento in cui un modello addestrato produce effettivamente una risposta o una previsione. Microsoft, con l’integrazione della sua infrastruttura Azure e le nuove architetture NVIDIA, ha appena stabilito un nuovo, impressionante punto di riferimento, infrangendo la barriera del milione: 1,1 milioni di token al secondo utilizzando l’infrastruttura Azure ND GB300 v6.

Questo risultato non è una mera curiosità tecnica, ma un fondamentale salto di qualità che ha implicazioni dirette sul futuro dell’AI aziendale e del cloud computing.

Il record è stato reso possibile grazie all’implementazione delle Virtual Machine (VM) ND GB300 v6 sulla piattaforma cloud di Microsoft Azure. Queste macchine virtuali sono costruite attorno al rack-scale system NVIDIA GB300 NVL72, che rappresenta la frontiera dell’hardware per l’AI.

Ciascun rack del sistema è una vera e propria centrale di calcolo, integrando una configurazione estremamente densa e interconnessa. Le VM sono equipaggiate con 72 GPU NVIDIA Blackwell Ultra e 36 CPU NVIDIA Grace per ogni rack. Questa architettura sfrutta l’avanzata interconnessione NVLink di NVIDIA, che garantisce una banda passante di 130 terabyte al secondo all’interno del rack, e una connettività cross-rack da 800 gigabit al secondo per ogni singola GPU. Tali specifiche si traducono in una potenza di calcolo aggregata di ben 1.440 Petaflop di prestazioni FP4 Tensor Core, rendendo questa configurazione ideale per i carichi di lavoro più esigenti di AI generativa.

Il test che ha stabilito il record ha utilizzato il modello Llama2-70B con il framework ottimizzato NVIDIA TensorRT-LLM e una precisione di calcolo ridotta (FP4), tecnica che accelera notevolmente l’inferenza mantenendo un’elevata accuratezza. L’esecuzione di 18 istanze parallele in un singolo rack NVL72 ha consentito di raggiungere l’incredibile throughput aggregato di oltre un milione di token al secondo, superando il precedente record detenuto dalla stessa Microsoft.

Ma cosa significa in pratica “1,1 milioni di token al secondo”? Il token è l’unità fondamentale di informazione che l’AI elabora, corrispondente grosso modo a una parola o una parte di parola.

Una velocità di inferenza così elevata si traduce in una trasformazione radicale dell’interazione con i modelli di AI di grandi dimensioni (LLM) per gli utenti finali e le aziende:

  • Reattività in Tempo Reale: Sebbene un singolo utente non necessiti di elaborare un milione di token al secondo, questa capacità è cruciale per la concorrenza e la latenza. Un throughput così massivo permette al sistema di gestire simultaneamente un numero enorme di richieste di utenti o processi aziendali con una risposta quasi istantanea. Questo è fondamentale per applicazioni come i chatbot aziendali avanzati, gli assistenti virtuali e l’AI agente, dove il ritardo deve essere minimo.
  • Costi ed Efficienza: La velocità è direttamente collegata all’efficienza e, di conseguenza, ai costi. Un’inferenza più rapida significa che un’azienda può elaborare lo stesso volume di richieste in molto meno tempo, o un volume molto maggiore con le stesse risorse hardware. Questo riduce i costi operativi associati al cloud computing e rende l’utilizzo dell’AI generativa su larga scala economicamente più sostenibile.
  • Scalabilità Aziendale: Le aziende stanno adottando l’AI generativa per automatizzare processi complessi (dalla supply chain alla creazione di codice) su vasta scala. Un’infrastruttura come Azure ND GB300 v6 fornisce la scalabilità necessaria per implementare modelli con centinaia di miliardi di parametri, garantendo che le prestazioni non degradino anche quando decine di migliaia di dipendenti o milioni di clienti interagiscono con i servizi basati sull’AI.

Microsoft e NVIDIA non hanno solo battuto un record di velocità. Hanno dimostrato che la prossima generazione di LLM e AI agenti potrà operare in un contesto di latenza prossima allo zero, accelerando l’adozione dell’intelligenza artificiale a livello enterprise e ridefinendo il concetto stesso di supercomputing AI nel cloud.

Di Fantasy