Per anni il dibattito sull’hardware per l’intelligenza artificiale si è concentrato quasi esclusivamente sull’addestramento dei modelli: più parametri, più dati, più potenza di calcolo. Oggi, però, il baricentro del settore si sta spostando in modo sempre più evidente verso un’altra fase, meno appariscente ma decisiva: l’inferenza, cioè la generazione delle risposte in tempo reale quando i modelli vengono utilizzati nei servizi concreti. È proprio su questo terreno che sarebbero emerse alcune frizioni tra OpenAI e NVIDIA, due attori che finora sono stati percepiti come alleati naturali nell’espansione dell’ecosistema dell’AI.
Secondo quanto riportato da Reuters, OpenAI avrebbe iniziato già dallo scorso anno a manifestare insoddisfazione per le prestazioni di inferenza dei più recenti chip di intelligenza artificiale di NVIDIA. Le criticità non riguarderebbero la fase di addestramento dei modelli, dove le GPU continuano a rappresentare uno standard di riferimento, ma piuttosto la capacità di fornire risposte rapide e reattive nei servizi reali, quelli utilizzati quotidianamente da sviluppatori e utenti finali.
All’interno di OpenAI, il problema sarebbe apparso con particolare evidenza negli strumenti di generazione del codice e nelle interazioni tra sistemi di intelligenza artificiale, ambiti in cui la latenza e la velocità di risposta diventano fattori determinanti. In questi casi, secondo alcune segnalazioni interne, l’infrastruttura fortemente incentrata sulle GPU avrebbe mostrato limiti di reattività, rendendo meno fluide operazioni che richiedono accessi rapidi alla memoria e scambi continui di informazioni tra modelli.
Da questa consapevolezza nascerebbe la volontà di OpenAI di diversificare l’hardware per l’inferenza, con l’obiettivo di affidare nel tempo circa il 10% delle proprie operazioni complessive a soluzioni alternative rispetto a quelle NVIDIA. Una scelta che, pur non mettendo in discussione il ruolo dominante delle GPU nel breve periodo, segnala un cambiamento strategico rilevante. Non a caso, sempre secondo Reuters, il rallentamento nelle trattative per un investimento da 100 miliardi di dollari sarebbe legato anche a queste valutazioni tecnologiche, che rendono più complesso allineare visioni e roadmap industriali.
In questo contesto entrano in scena startup specializzate in architetture pensate specificamente per l’inferenza. OpenAI avrebbe avviato discussioni e collaborazioni con realtà come Cerebras e Grok, che puntano a ridurre drasticamente la latenza grazie a un approccio diverso rispetto alle GPU tradizionali. Il loro punto di forza è l’integrazione di grandi quantità di SRAM direttamente sul chip, una scelta progettuale che risponde a una caratteristica fondamentale dell’inferenza moderna: più che sulla potenza di calcolo pura, essa dipende dall’accesso rapido e continuo alla memoria.
Questo approccio contrasta con le architetture GPU classiche, che si affidano in larga parte a memoria esterna. In scenari di inferenza complessi e interattivi, la distanza tra unità di calcolo e memoria può tradursi in ritardi percepibili, soprattutto quando i modelli devono dialogare tra loro o rispondere in tempo reale a richieste articolate. È su questo terreno che Cerebras, in particolare, avrebbe convinto OpenAI, arrivando a firmare un contratto di fornitura di chip dopo aver rifiutato un’eventuale acquisizione da parte di NVIDIA.
Anche NVIDIA, tuttavia, non è rimasta ferma. L’azienda ha riconosciuto apertamente l’importanza strategica della memoria on-chip per l’inferenza e ha valutato acquisizioni mirate proprio in questo ambito. Nel caso di Grok, l’operazione si è concretizzata attraverso una licenza non esclusiva in contanti, accompagnata dal reclutamento di personale chiave per la progettazione dei chip. Una mossa che dimostra come la competizione non si giochi solo sul piano dei prodotti, ma anche su quello delle competenze e del capitale umano.
Queste dinamiche avrebbero inevitabilmente inciso anche sui rapporti finanziari tra le due aziende. A settembre dello scorso anno, NVIDIA aveva annunciato la possibilità di un investimento fino a 100 miliardi di dollari in OpenAI, lasciando intendere una chiusura rapida dell’accordo. In realtà, le trattative si sono protratte per mesi, segno di una relazione più complessa di quanto apparisse dall’esterno. Nel frattempo, OpenAI ha avviato collaborazioni anche con AMD, aggiungendo un ulteriore livello di complessità a una strategia hardware sempre meno monolitica.
A livello pubblico, entrambe le parti hanno cercato di smorzare i toni. Il CEO di NVIDIA, Jensen Huang, ha smentito l’esistenza di un conflitto con OpenAI, ribadendo che l’azienda continuerà a investire su larga scala nell’intelligenza artificiale. NVIDIA ha inoltre sottolineato come molti clienti scelgano le sue soluzioni per l’inferenza grazie al miglior equilibrio tra prestazioni e costo totale di proprietà in ambienti su larga scala. OpenAI, dal canto suo, ha confermato ufficialmente di affidarsi ancora a NVIDIA per la maggior parte della propria infrastruttura di inferenza, riconoscendo il valore delle GPU in termini di prestazioni per dollaro.
Dietro queste dichiarazioni, però, emerge una trasformazione strutturale del settore. Con il progressivo spostamento dell’attenzione dall’addestramento all’inferenza e alla velocità di risposta in tempo reale, anche la strategia storicamente centrata sulle GPU viene messa alla prova. L’esempio di Google, che utilizza le proprie TPU per fornire servizi cloud legati ai modelli Gemini, e quello di Anthropic, alimentano ulteriormente le riflessioni all’interno di OpenAI su come garantire competitività nel lungo periodo.
In questo quadro si inseriscono anche le parole del CEO di OpenAI, Sam Altman, che annunciando l’accordo con Cerebras ha sottolineato come “la velocità sia un fattore determinante nella programmazione”. Una frase che sintetizza bene il nuovo equilibrio del settore: non basta avere il modello più avanzato, se poi non è in grado di rispondere rapidamente e in modo efficiente alle richieste del mondo reale.
