In un mercato già affollato di soluzioni AI vocali, OpenAI ha deciso di alzare il tiro. Il 28 agosto 2025 ha presentato GPT‑Realtime, un modello vocale che non si limita a riprodurre parole, ma comprende, risponde e soprattutto interpretando il tono, con un’espressività che mira a diventare uno standard nelle interazioni aziendali più complesse.
Mentre la domanda di assistenti vocali realistici continua a crescere, dalle call center alle traduzioni real‑time, OpenAI punta sul realismo. GPT‑Realtime promette una voce naturale ed emotiva, ma non solo: riesce anche a seguire istruzioni “offerte” in tempo reale, ad esempio “parla con accento francese e tono enfatico”.
Disponibile tramite la nuova Realtime API, il modello debutta insieme a due nuove voci, Cedar e Marin, e con il supporto migliorato per le voci esistenti.
OpenAI non ha testato GPT‑Realtime in laboratorio: lo ha sviluppato in collaborazione con i primi utenti enterprise — aziende che già creano applicazioni vocali per supporto clienti o tutoring. Il modello è stato calibrato su scenari reali, come assistenza durante chiamate, rendendolo più pronto all’utilizzo pratico.
GPT‑Realtime è un modello speech‑to‑speech: ascolta, interpreta e risponde vocalmente. È un passo avanti importante, pensato proprio per conversazioni naturali, come quando un cliente chiama un assistente vocale per restituire un prodotto.
Durante una live demo sono state mostrate implementazioni concrete: T-Mobile ha presentato un assistente per trovare nuovi cellulari, Zillow uno per affiancare nella scelta del quartiere ideale.
Uno degli aspetti più sorprendenti? GPT‑Realtime può cambiare lingua nel bel mezzo della frase e seguire direttive complesse come “parla con accento francese ma enfatizza”.
Il mercato di voice AI enterprise è già popolato. ElevenLabs ha pubblicato Conversation AI 2.0; Soundhound collabora con fast food per sistemi drive‑thru; la startup Hume offre l’IA vocale basata su registrazione della propria voce. Anche Mistral con Voxtral e Google con le sue funzionalità audio avanzate su NotebookLM stanno entrando nel gioco.
GPT‑Realtime non è solo vocale: “capisce” l’audio nativo (ride, sospira, coglie intonazioni) e risponde meglio grazie a quel “quid” umano che altri sistemi spesso ignorano. Sul benchmark Big Bench Audio, il modello raggiunge l’82,8 % di accuratezza, contro il 65,6 % del suo predecessore. Inoltre, brilla in MultiChallenge Audio, con un punteggio del 30,5 %—un salto verso una comprensione ancora più profonda. Il modello è anche dotato di capacità avanzate di function calling, per interagire con strumenti esterni
OpenAI non ha lanciato solo un modello: ha reso disponibile una potente Realtime API che include:
- MCP (Model Context Protocol) e rilevamento immagini → per supportare contesti multimodali simili a quelli proposti da Google Project Astra,
- Supporto SIP → per connettere applicazioni con centralini telefonici, essenziale nei contact center,
- Prompt salvabili e riutilizzabili → per semplificare l’integrazione e lo sviluppo.
Gli sviluppatori sono stati puntuali: “Le funzionalità MCP e SIP non sono solo un altro modello. La possibilità di collegarsi a strumenti esterni trasforma i modelli da demo impressionanti a componenti integrati nei workflow reali”. Tra i feedback: “Miglioramento audio evidente, attento alle istruzioni, sembra veloce”. Ma c’è chi sottolinea criticità: “Pro: migliore funzione calling, più emozione, 20 % più economico. Contro: nessuna voce custom, ancora costoso rispetto a pipeline TTS‑LLM‑STT”.
Da segnalare anche un taglio dei prezzi del 20 %: $32 per milione di token audio in input, e $64 per milione in output—un passo verso la sostenibilità economica delle applicazioni vocali.
OpenAI con GPT-Realtime non consegna solo una voce bella da sentire: offre intelligenza», «espressività», «strumenti reali da usare oggi. In un mercato affollato, punta a distinguersi non con effetti speciali, ma con funzionalità reali pronte all’uso: comprensione dell’audio umano, integrazione con sistemi telefonici, supporto multimodale… il tutto confezionato in una API enterprise matura.