Nel febbraio 2026 OpenAI ha annunciato il lancio di GPT-5.3-Codex-Spark, un modello di intelligenza artificiale specializzato nella generazione di codice che, per la prima volta, non si affida esclusivamente all’infrastruttura basata su GPU di Nvidia ma viene eseguito su hardware Cerebras progettato per offrire inferenza a latenza ultra-bassa. Questa modifica rappresenta un’importante evoluzione dell’architettura di inferenza di OpenAI e rende possibile ottenere velocità di generazione di codice fino a 15 volte superiori rispetto alle configurazioni GPU tradizionali, un risultato che può trasformare l’esperienza di sviluppo assistita dall’IA e la produttività degli strumenti di coding intelligente.

La scelta di integrare i chip di Cerebras Systems, un’azienda statunitense specializzata in soluzioni hardware per l’accelerazione di carichi di lavoro AI su larga scala, nasce dall’esigenza di superare i limiti di latenza tipici delle architetture GPU distribuite. I chip Cerebras, in particolare il loro Wafer Scale Engine 3 (WSE-3) — un processore di dimensioni eccezionali che aggrega memoria, compute e larghezza di banda su un’unica superficie di silicio — eliminano gran parte dei colli di bottiglia che si verificano quando un modello deve essere eseguito su cluster di processori più piccoli. L’inferenza su questi chip avviene con latenza molto più bassa, consentendo così a un modello come Codex-Spark di fornire output di codice quasi in tempo reale, con più di 1 000 token al secondo nel corso dei test preliminari.

Questa nuova versione del modello Codex non è semplicemente un potenziamento incrementale di un modello di generazione di codice esistente, ma un riarrangiamento dell’equilibrio tra capacità e velocità di risposta. OpenAI stessa ha descritto Codex-Spark come un modello ottimizzato per ambienti interattivi: pur essendo leggermente meno accurato nei benchmark più complessi di ingegneria del software rispetto alla versione completa di GPT-5.3-Codex (come mostra la sua performance su standard come SWE-Bench Pro e Terminal-Bench 2.0), la riduzione della latenza è vista come un compromesso accettabile per molte attività di sviluppo quotidiano, perché offre una fluidità dell’interazione che mantiene il flusso creativo del programmatore senza ritardi prolungati.

Dal punto di vista infrastrutturale, l’impiego dei chip Cerebras non sostituisce del tutto l’uso delle GPU Nvidia in OpenAI: le GPU restano fondamentali per il training su larga scala e per la maggior parte dei carichi di inferenza generica, grazie alla loro efficienza e al costo per token competitivo. Tuttavia, l’integrazione di sistemi Cerebras qualifica l’hardware di inferenza come una componente distinta e complementare della piattaforma di OpenAI, particolarmente adatta quando la reattività in tempo reale diventa un fattore critico per l’esperienza utente — come nel caso degli assistenti di coding interattivi o applicazioni che richiedono latenza minima tra richiesta e risposta.

Il modello Codex-Spark, reso disponibile inizialmente come anteprima di ricerca per gli abbonati a ChatGPT Pro attraverso l’app Codex, un’interfaccia a riga di comando e un’estensione per Visual Studio Code, supporta finestre di contesto molto ampie (fino a 128 000 token) e funziona attualmente con input testuali, senza supporto multimodale. Accesso API e integrazione diretta per partner enterprise sono in fase di sperimentazione, con l’intento di estendere progressivamente l’adozione man mano che si affrontano le sfide legate alla scalabilità dell’infrastruttura specializzata.

Questa mossa di OpenAI si inserisce in un più ampio contesto di pressione competitiva e trasformazione tecnologica nel settore dell’IA: aziende come Meta, Anthropic e altri provider di servizi AI stanno anch’essi esplorando hardware alternativo o ottimizzato per inferenza, ma la partnership con Cerebras segna uno dei primi casi di adozione su larga scala di architetture di inferenza alternative alle GPU tradizionali per un prodotto mainstream dell’IA. Il successo di questa integrazione potrebbe ridefinire il modo in cui le applicazioni basate su modelli di linguaggio avanzati vengono eseguite in scenari real-time, con implicazioni per le future generazioni di modelli pensati non solo per generare testo o codice, ma per farlo con latenza e interattività adatte a flussi di lavoro sempre più dinamici e integrati.

Di Fantasy