Immagine AI

Con il rilascio di OpenAI GPT-5.3 Codex, l’intelligenza artificiale applicata allo sviluppo software entra in una fase nuova, più matura e radicale. Non si tratta solo di un aggiornamento prestazionale o di un miglioramento incrementale rispetto ai modelli precedenti, ma di un cambio di paradigma che ridefinisce il ruolo dell’AI nel ciclo di vita del software. Per la prima volta, infatti, un modello è stato utilizzato in modo sostanziale per contribuire allo sviluppo e al miglioramento di sé stesso, segnando un passaggio simbolico e tecnico che fino a poco tempo fa apparteneva più alla teoria che alla pratica.

Il lancio è avvenuto lo stesso giorno dell’aggiornamento di Anthropic, che ha presentato Claude Opus 4.6, rendendo ancora più evidente la competizione tra i due principali attori indipendenti nel campo dei modelli avanzati per il coding. Secondo OpenAI, GPT-5.3 Codex non solo supera il concorrente diretto in diversi benchmark chiave, ma rappresenta anche il modello di codifica agentica più potente mai rilasciato dall’azienda.

GPT-5.3 Codex nasce dall’integrazione delle capacità di codifica avanzata di GPT-5.2 Codex con le competenze di inferenza e conoscenza specialistica di GPT-5.2, unificando in un unico sistema funzioni che prima erano distribuite su modelli differenti. Il risultato è un agente in grado di affrontare attività complesse e prolungate nel tempo, combinando ricerca, utilizzo di strumenti esterni ed esecuzione operativa senza perdere coerenza o contesto. L’interazione con l’utente non è più limitata a una sequenza di prompt e risposte, ma assume la forma di una collaborazione continua, in cui lo sviluppatore può intervenire, correggere la rotta e dialogare con il modello mentre il lavoro è in corso, come farebbe con un collega umano.

L’aspetto più rilevante di questo rilascio, tuttavia, non è solo funzionale ma metodologico. OpenAI ha dichiarato apertamente che una versione preliminare di GPT-5.3 Codex è stata impiegata per il debug del processo di apprendimento, per la gestione dell’implementazione e per la valutazione dei risultati dei test del modello finale. È la prima volta che l’azienda riconosce in modo esplicito che un sistema di intelligenza artificiale ha avuto un ruolo centrale nel proprio sviluppo. Secondo il team, questa scelta ha accelerato in modo sorprendente i tempi di rilascio, dimostrando quanto l’uso interno di agenti AI possa comprimere cicli di sviluppo che tradizionalmente richiederebbero settimane o mesi.

Anche Sam Altman, CEO di OpenAI, ha sottolineato pubblicamente questo punto, raccontando come l’esperienza di usare GPT-5.3 Codex per costruire GPT-5.3 Codex abbia mostrato in modo tangibile quanto rapidamente l’azienda possa ora muoversi. Un segnale, secondo Altman, che anticipa ulteriori cambiamenti strutturali nel modo in cui i modelli verranno progettati e rilasciati in futuro.

I numeri confermano l’ambizione del progetto. Nei benchmark di ingegneria del software più rigorosi, GPT-5.3 Codex ha raggiunto il 57% nel test SWE-Bench Pro, una valutazione nota per includere attività di livello industriale e per ridurre al minimo la possibilità di contaminazione dei dati. Ancora più indicativo è il risultato nel Terminal-Bench 2.0, che misura la capacità di utilizzare ambienti a riga di comando, elemento fondamentale per gli agenti di codifica avanzati. Qui il modello ha ottenuto il 77,3%, superando nettamente sia la generazione precedente sia Claude Opus 4.6, che si è fermato a poco più del 65%.

Anche in contesti che simulano l’uso quotidiano di un computer, come il benchmark OSWorld, GPT-5.3 Codex ha mostrato un miglioramento sostanziale, raggiungendo il 64% e dimostrando una maggiore affidabilità nell’esecuzione di attività di produttività reali. Questi risultati non sono solo una questione di punteggi, ma indicano una maggiore capacità del modello di operare in ambienti complessi, con meno errori e maggiore autonomia.

Accanto alle prestazioni, OpenAI ha posto grande enfasi sull’efficienza. GPT-5.3 Codex utilizza meno della metà dei token necessari ai modelli precedenti per completare le stesse attività e offre una velocità di inferenza per token superiore di oltre il 25%. Questo miglioramento è stato possibile anche grazie all’addestramento e al deployment sul sistema NVIDIA GB200 NVL72, una piattaforma pensata per sostenere carichi di lavoro AI ad altissima intensità. L’efficienza diventa così un fattore competitivo chiave, soprattutto in ambito enterprise, dove costi, latenza e scalabilità sono determinanti.

Per dimostrare la capacità di esecuzione autonoma a lungo termine, OpenAI ha affidato a GPT-5.3 Codex lo sviluppo completo di un videogioco, dall’ideazione alla realizzazione finale, nell’arco di più giorni. Anche a fronte di istruzioni minime come “correzione di bug” o “miglioramento del gameplay”, il modello è stato in grado di iterare autonomamente su milioni di token, affinando progressivamente il risultato. Un comportamento simile è stato osservato anche nello sviluppo di siti web, dove il modello riesce a interpretare con maggiore precisione l’intento dell’utente e a produrre output funzionali e rifiniti anche quando le istruzioni iniziali sono imperfette.

Questo approccio esteso al lavoro cognitivo rende GPT-5.3 Codex uno strumento pensato per l’intero ciclo di vita del software. Non è limitato agli ingegneri, ma può supportare anche progettisti, product manager, data scientist e analisti, occupandosi di attività che vanno dalla creazione di documenti di prodotto al monitoraggio delle metriche, dal deployment al debugging, fino alla produzione di contenuti più generali come presentazioni e analisi di fogli di calcolo. L’obiettivo dichiarato è avvicinarsi sempre di più a un agente unico e generalista, capace di adattarsi a contesti diversi senza perdere efficacia.

Non meno rilevante è il tema della sicurezza. GPT-5.3 Codex è il primo modello classificato come “High Capability” nel framework di preparedness di OpenAI per la sicurezza informatica. Il modello è stato addestrato per individuare vulnerabilità software e sono state implementate misure di protezione più avanzate per prevenire usi impropri. A supporto di un impiego difensivo, l’azienda ha annunciato anche un programma pilota che include scansioni gratuite del codice per progetti open source e crediti API dedicati.

Attualmente GPT-5.3 Codex è disponibile per gli utenti ChatGPT a pagamento tramite l’app Codex, la CLI, le estensioni per IDE e l’ambiente web, mentre l’accesso tramite API verrà ampliato gradualmente dopo ulteriori verifiche di sicurezza. Un dettaglio non secondario è che OpenAI ha scelto di rilasciare il Codex prima del modello generalista di punta, rompendo una consuetudine consolidata e segnalando chiaramente la priorità strategica attribuita al mercato enterprise e allo sviluppo software.

Il tempismo del rilascio, avvenuto a pochi minuti di distanza da quello di Anthropic, rafforza l’idea che la competizione non sia casuale. Secondo alcuni analisti, il cosiddetto “Codice Rosso” annunciato da OpenAI nei mesi precedenti sarebbe stato pensato più per contrastare Anthropic che per rispondere alle mosse di altri player come Google. In questo scenario, GPT-5.3 Codex rappresenta non solo un prodotto, ma una dichiarazione di intenti: l’AI non è più solo uno strumento di supporto, ma un attore centrale nello sviluppo del software e, sempre più, nello sviluppo dell’intelligenza artificiale stessa.

Di Fantasy