OpenAI prepara GPT-5.6: indiscrezioni su contesto da 1,5 milioni di token, Codex e audio bidirezionale

OpenAI potrebbe introdurre a breve una nuova iterazione della propria famiglia di modelli, indicata da alcune tracce emerse nei test come GPT-5.6. Le informazioni disponibili non costituiscono ancora un annuncio ufficiale dell’azienda e non permettono di confermare né la data di distribuzione né le specifiche definitive, ma indicano la possibile presenza di più varianti, comprese GPT-5.6, GPT-5.6 Mini e GPT-5.6 Pro.

Le segnalazioni provengono da riferimenti individuati in ambienti di test e da utenti ChatGPT Pro che avrebbero avuto accesso a build denominate GPT-5.6 Pro. La finestra temporale ipotizzata da varie fonti è quella della settimana del 23 giugno, ma la distribuzione potrebbe avvenire in modo progressivo, differenziando l’accesso tra ChatGPT, abbonamenti Pro, Codex e API.

Uno degli elementi più rilevanti riguarda l’ampiezza del contesto. Alcuni test informali attribuiscono a GPT-5.6 una finestra fino a 1,5 milioni di token, superiore al milione di token associato a GPT-5.5. Un contesto di queste dimensioni permetterebbe di elaborare grandi quantità di testo, codice e documentazione tecnica nella stessa sessione, riducendo la necessità di suddividere repository, specifiche software, contratti o basi di conoscenza in frammenti più piccoli.

Per lo sviluppo software, l’incremento del contesto sarebbe utile soprattutto nei progetti con molte dipendenze. Un modello può analizzare componenti distribuiti su più cartelle, collegare definizioni, test, configurazioni di build e documentazione interna, quindi proporre modifiche che tengano conto dell’architettura complessiva. La disponibilità effettiva di un contesto così esteso dipenderà tuttavia dai limiti fissati per ciascun piano, dalle soglie di utilizzo e dalle modalità con cui OpenAI renderà il modello disponibile tramite API.

Le prove condivise dai tester fanno riferimento anche a miglioramenti nell’uso agentico del codice. In un flusso di lavoro di questo tipo, il modello non si limita a generare una funzione o spiegare un errore, ma può pianificare attività, ispezionare file, proporre correzioni, eseguire verifiche e aggiornare progressivamente il risultato in base agli strumenti messi a disposizione. L’integrazione con Codex sarebbe quindi uno degli aspetti principali della nuova versione, con l’obiettivo di rendere più rapida la gestione di task di programmazione prolungati.

Tra gli esempi circolati vi sono generazione di interfacce SVG, prototipi di giochi realizzati da una singola richiesta e test tridimensionali. Questi risultati non equivalgono a benchmark pubblicati né definiscono in modo affidabile le capacità del modello: dipendono dal prompt, dall’ambiente operativo, dagli strumenti disponibili e dai criteri con cui viene valutato l’output. Restano però indicativi della direzione tecnica attesa, orientata a coding, progettazione di interfacce e uso di strumenti in sequenza.

Accanto al modello testuale, potrebbero arrivare novità per la voce. Riferimenti a un sistema indicato come GPT-Bidi-1 descrivono un’architettura audio bidirezionale, progettata per ascoltare e generare voce nello stesso momento. Rispetto a una catena tradizionale composta da riconoscimento vocale, elaborazione testuale e sintesi vocale, una modalità bidirezionale può rendere più naturale l’interazione: l’assistente può gestire le interruzioni, adattare velocità e intonazione mentre parla e rispondere senza attendere necessariamente la fine completa dell’enunciato.

Questa modalità sarebbe distinta dal normale text-to-speech e dalle funzioni vocali già presenti in ChatGPT. Le indiscrezioni citano inoltre la possibilità di regolare la velocità della riproduzione e di utilizzare il nuovo sistema come opzione indipendente nell’app. Non sono però disponibili dettagli pubblici su latenza, lingue supportate, gestione dell’audio sul dispositivo, infrastruttura cloud o criteri di protezione delle conversazioni vocali.

L’eventuale lancio di GPT-5.6 dovrà quindi essere valutato sulla documentazione ufficiale che accompagnerà il rilascio. Per utenti e sviluppatori, i dati più importanti saranno il nome esatto dei modelli disponibili, il contesto effettivamente accessibile, i limiti di utilizzo, i prezzi API, le prestazioni misurate, la disponibilità in Codex e le caratteristiche della nuova modalità voce. Fino a quel momento, le informazioni emerse restano segnali di una possibile distribuzione imminente, non specifiche definitive del prodotto.

OpenAI prepara GPT-5.6: indiscrezioni su contesto da 1,5 milioni di token, Codex e audio bidirezionale

DiFantasy

Di Fantasy

Articoli correlati

Google Home Speaker con Gemini arriva negli Stati Uniti il 25 giugno a 99,99 dollari

CrankGPT usa una manovella per alimentare un assistente AI locale su Raspberry Pi 5

Katha Room integra racconti tradizionali indiani e AI per creare storie personalizzate per bambini

Ultimi Post

Google Home Speaker con Gemini arriva negli Stati Uniti il 25 giugno a 99,99 dollari

OpenAI prepara GPT-5.6: indiscrezioni su contesto da 1,5 milioni di token, Codex e audio bidirezionale

CrankGPT usa una manovella per alimentare un assistente AI locale su Raspberry Pi 5

Katha Room integra racconti tradizionali indiani e AI per creare storie personalizzate per bambini