Il ritmo di evoluzione dei modelli di intelligenza artificiale generativa continua ad accelerare, e l’annuncio di GPT-5.4 da parte di OpenAI rappresenta uno dei passi più significativi nella trasformazione dei modelli linguistici da semplici strumenti conversazionali a sistemi operativi autonomi in grado di eseguire compiti complessi. Presentato pochi giorni dopo il rilascio di GPT-5.3 Instant, il nuovo modello amplia le capacità della piattaforma con funzioni orientate al lavoro professionale, introducendo modalità operative che permettono all’intelligenza artificiale di interagire direttamente con software e ambienti informatici.
GPT-5.4 viene rilasciato in due varianti principali, denominate GPT-5.4 Thinking e GPT-5.4 Pro. La prima è pensata per utenti avanzati e per scenari di ragionamento complesso, mentre la versione Pro è progettata per ambienti aziendali e per attività ad alta intensità computazionale. Entrambe le varianti sono accessibili tramite API e all’interno dell’ambiente di sviluppo Codex, mentre l’accesso diretto all’interno di ChatGPT è differenziato in base al piano di abbonamento: gli utenti Plus possono utilizzare GPT-5.4 Thinking, mentre GPT-5.4 Pro è destinato ai piani ChatGPT Pro ed Enterprise. Anche gli utenti gratuiti possono interagire con il modello in modo limitato, quando il sistema indirizza automaticamente una richiesta verso questa versione.
Uno degli elementi più innovativi introdotti da GPT-5.4 è la modalità di utilizzo nativo del computer, che rappresenta un passo decisivo verso l’automazione completa dei flussi di lavoro digitali. A differenza dei modelli precedenti, che operavano principalmente come assistenti testuali o strumenti di generazione di contenuti, il nuovo modello può interagire direttamente con interfacce grafiche e applicazioni software. In pratica, il sistema è in grado di eseguire operazioni come muovere il cursore, digitare comandi da tastiera, navigare tra finestre e utilizzare applicazioni, replicando il comportamento di un utente umano davanti a un computer.
Dal punto di vista tecnico, questa capacità è resa possibile attraverso una combinazione di strumenti software e di interpretazione visiva delle schermate. Il modello può scrivere codice che controlla il sistema operativo tramite librerie dedicate, come Playwright, oppure interpretare immagini e screenshot per capire cosa sta accadendo sullo schermo e decidere quale azione eseguire successivamente. Questo approccio permette all’intelligenza artificiale di gestire attività multi-passo che coinvolgono più applicazioni o servizi web, trasformando il modello in un agente digitale capace di portare a termine procedure articolate senza intervento umano diretto.
Le prestazioni dichiarate da OpenAI indicano un miglioramento significativo nelle capacità operative rispetto alle versioni precedenti. Nei benchmark progettati per misurare la capacità di un sistema di utilizzare applicazioni e navigare su Internet, GPT-5.4 mostra progressi rilevanti. Ad esempio, nei test di navigazione desktop basati su screenshot e azioni di tastiera e mouse, il modello raggiunge un tasso di successo del 75%, superando sia la versione precedente GPT-5.2 sia il livello medio umano stimato nello stesso benchmark. Anche nelle prove di navigazione web persistente, che richiedono di cercare e raccogliere informazioni difficili da trovare attraverso più pagine e passaggi logici, GPT-5.4 registra miglioramenti significativi rispetto alle generazioni precedenti.
Un’altra area in cui OpenAI ha concentrato l’innovazione riguarda l’integrazione con strumenti finanziari e di analisi dei dati. Con GPT-5.4 viene infatti introdotta una suite dedicata ai servizi finanziari che integra l’intelligenza artificiale direttamente all’interno di applicazioni di calcolo come Microsoft Excel e Google Sheets. In questo scenario, il modello può analizzare fogli di calcolo, creare modelli finanziari complessi, aggiornare dati e generare analisi utilizzando le stesse formule e strutture normalmente utilizzate dagli analisti. Questa integrazione mira a ridurre il tempo necessario per attività tipiche della finanza aziendale, come la valutazione comparativa di aziende, l’elaborazione di modelli di flusso di cassa scontato o la preparazione di documenti per decisioni di investimento.
La piattaforma include anche connessioni con fonti dati professionali, tra cui servizi di analisi finanziaria e database di mercato, con l’obiettivo di riunire informazioni interne e dati esterni in un unico flusso di lavoro automatizzato. In questo modo, il modello può contribuire non solo alla generazione di contenuti o alla sintesi di documenti, ma anche alla costruzione e alla manutenzione di strumenti analitici complessi utilizzati nelle attività di consulenza, investment banking o analisi di mercato.
Dal punto di vista architetturale, GPT-5.4 introduce anche miglioramenti nella gestione degli strumenti esterni. Una delle novità è il cosiddetto “tool search”, un sistema che permette al modello di accedere alle definizioni degli strumenti solo quando sono effettivamente necessari, invece di caricarle tutte nel contesto della richiesta. Questo approccio riduce il numero di token utilizzati e rende più efficienti le interazioni con ecosistemi complessi di strumenti software. Nei test interni citati da OpenAI, questa tecnica ha permesso di ridurre il consumo totale di token fino al 47% mantenendo lo stesso livello di accuratezza nelle attività svolte.
Anche sul piano delle capacità linguistiche e analitiche il modello presenta miglioramenti rispetto alle versioni precedenti. OpenAI sostiene che GPT-5.4 sia il modello più accurato sviluppato finora dall’azienda, con una riduzione significativa degli errori fattuali. In un set di test basato su domande in cui gli utenti avevano segnalato errori nelle risposte dei modelli precedenti, le affermazioni generate da GPT-5.4 risultano circa il 33% meno inclini a contenere informazioni errate rispetto a GPT-5.2, mentre la probabilità che una risposta complessiva contenga errori si riduce di circa il 18%.
Il modello introduce inoltre una finestra di contesto estremamente ampia, che può arrivare fino a un milione di token nelle implementazioni API. Questo consente agli agenti basati su GPT-5.4 di lavorare su documenti molto lunghi o su progetti complessi che richiedono memoria di lungo periodo, mantenendo coerenza tra le diverse fasi di un processo. Tale capacità risulta particolarmente utile nei flussi di lavoro professionali che richiedono pianificazione, verifica e revisione di risultati su periodi estesi.
Dal punto di vista economico, l’utilizzo del modello tramite API presenta costi più elevati rispetto ad alcune generazioni precedenti, con tariffe differenziate tra input e output e tra le due varianti disponibili. Tuttavia, OpenAI sostiene che il prezzo sia giustificato dalle prestazioni superiori e dall’efficienza nell’utilizzo dei token durante il ragionamento complesso e l’esecuzione di attività multi-passo.
