Immagine AI

L’infrastruttura per l’intelligenza artificiale sta entrando in una fase in cui la progettazione dei sistemi non riguarda più solo singoli processori o GPU, ma intere architetture integrate capaci di funzionare come veri e propri supercomputer. In questo contesto si inserisce l’annuncio della nuova piattaforma Vera Rubin di Nvidia, un sistema progettato per alimentare la prossima generazione di modelli di intelligenza artificiale su scala industriale. L’iniziativa non riguarda solo un nuovo chip, ma un’architettura completa che integra più componenti hardware specializzati e che sarà utilizzata da alcuni dei principali attori dell’AI globale, tra cui OpenAI e Anthropic.

La piattaforma Rubin rappresenta il successore diretto dell’architettura Blackwell e nasce con l’obiettivo di affrontare una sfida molto concreta: la crescita esponenziale della potenza di calcolo necessaria per addestrare e far funzionare i modelli generativi più avanzati. Secondo Nvidia, la domanda di capacità computazionale per l’AI sta aumentando a un ritmo tale da richiedere un ripensamento dell’intero stack hardware, dalla CPU alle GPU fino alle reti di interconnessione tra nodi di calcolo. Rubin è stata quindi progettata con un approccio definito dall’azienda “extreme codesign”, in cui ogni componente del sistema viene sviluppato in modo coordinato per funzionare come parte di un unico supercomputer distribuito.

Al cuore di questa architettura si trova il cosiddetto Vera Rubin superchip, una combinazione strettamente integrata tra CPU e GPU. Il processore include una CPU denominata Vera e due GPU Rubin collegate tramite interconnessioni ad altissima velocità, creando un’unità di calcolo capace di gestire simultaneamente carichi di lavoro di training e inferenza su larga scala. Questa integrazione è stata progettata per ridurre le latenze tra CPU e GPU e per sfruttare una memoria condivisa molto più ampia rispetto alle generazioni precedenti di acceleratori AI.

La CPU Vera è stata sviluppata con un’architettura specifica per l’AI e dispone di decine di core ad alte prestazioni, progettati per supportare una modalità di esecuzione chiamata “spatial multithreading”, che consente a ogni thread di comportarsi come se fosse un core indipendente. Questa caratteristica aumenta significativamente l’efficienza nella gestione di carichi di lavoro altamente paralleli, tipici dell’addestramento dei modelli di deep learning. Il sistema è inoltre dotato di una larghezza di banda di memoria estremamente elevata e di tecnologie di sicurezza avanzate per il confidential computing, un aspetto sempre più rilevante nei data center che ospitano modelli AI proprietari.

La piattaforma Rubin non si limita però al superchip CPU-GPU. Nvidia ha progettato un ecosistema hardware composto da diversi componenti specializzati che operano insieme. Tra questi figurano gli switch NVLink di nuova generazione per collegare grandi quantità di GPU con latenza minima, le schede di rete ConnectX-9 per la comunicazione ad alta velocità tra server, i processori BlueField-4 per la gestione della sicurezza e del networking nei data center e le soluzioni Ethernet Spectrum-6 per l’infrastruttura di rete su larga scala. L’obiettivo è creare un sistema rack-scale in cui decine o centinaia di acceleratori possano lavorare come un’unica macchina AI.

Questa architettura è stata progettata per supportare la nuova generazione di modelli AI, in particolare quelli basati su architetture mixture-of-experts e sistemi agentici. In tali modelli, molte reti neurali specializzate collaborano tra loro per produrre una risposta, generando enormi quantità di calcolo distribuito. Rubin è stata sviluppata proprio per gestire questo tipo di carichi, offrendo secondo Nvidia un miglioramento significativo sia nella velocità di training sia nel costo per token generato durante l’inferenza. Le stime dell’azienda indicano che il costo computazionale per generare output potrebbe ridursi fino a circa un decimo rispetto alla piattaforma precedente, rendendo economicamente sostenibile l’utilizzo di modelli sempre più complessi.

L’importanza della piattaforma Rubin emerge ancora più chiaramente osservando i partner che hanno già annunciato l’intenzione di adottarla. Tra questi figurano i principali operatori del cloud e della ricerca AI, tra cui Amazon Web Services, OpenAI e Anthropic, oltre a importanti infrastrutture scientifiche come il sistema Doudna del Lawrence Berkeley National Laboratory. Questo indica che la nuova architettura non è pensata solo per applicazioni commerciali, ma anche per progetti scientifici e per la ricerca su modelli di intelligenza artificiale sempre più avanzati.

Particolarmente significativo è il rapporto tra Nvidia e OpenAI. Le due aziende hanno annunciato un accordo strategico che prevede la costruzione di una nuova generazione di data center AI con una capacità complessiva di almeno 10 gigawatt, un livello di infrastruttura paragonabile alla produzione energetica di diverse centrali nucleari. In questo progetto Nvidia ha dichiarato l’intenzione di investire fino a 100 miliardi di dollari man mano che l’infrastruttura verrà costruita, con le prime implementazioni basate proprio sulla piattaforma Vera Rubin previste a partire dalla seconda metà del 2026.

Un simile livello di investimento evidenzia come l’infrastruttura AI stia diventando uno dei settori più capital-intensive dell’intera industria tecnologica. I modelli di nuova generazione richiedono infatti centinaia di migliaia di GPU e enormi quantità di energia elettrica per funzionare. Nvidia ha quindi iniziato a progettare piattaforme complete che includono non solo processori, ma anche sistemi di networking, gestione energetica e sicurezza integrata.

Rubin introduce anche nuove innovazioni nella comunicazione tra chip e nella gestione della memoria. L’uso della memoria HBM4 e di interconnessioni ad altissima banda consente alle GPU di accedere ai dati molto più rapidamente rispetto alle architetture precedenti. Questo è un elemento fondamentale per i modelli linguistici di grandi dimensioni, che devono elaborare enormi matrici di parametri e dataset durante il training. La combinazione tra memoria ad alta velocità e networking avanzato consente di distribuire i calcoli su migliaia di nodi mantenendo la sincronizzazione necessaria per il funzionamento dei modelli.

Di Fantasy