OpenAI potenzia lo sviluppo di agenti vocali con nuove funzionalità in tempo reale

DiFantasy

Giu 4, 2025

OpenAI ha recentemente introdotto significativi aggiornamenti al suo framework per lo sviluppo di agenti di intelligenza artificiale, mirando a migliorare l’interazione vocale in tempo reale e a rendere più accessibile la creazione di applicazioni vocali avanzate.

Una delle principali novità è l’introduzione del “RealtimeAgent”, un agente progettato specificamente per gestire interazioni vocali in tempo reale. Questo agente è in grado di ricevere e restituire input vocali, mantenere lo stato durante la conversazione e rispondere prontamente anche quando l’utente interrompe.

Una caratteristica distintiva di questa funzionalità è l’opzione “Human-In-The-Loop” (HITL), che consente di mettere in pausa l’agente durante l’esecuzione, salvare lo stato corrente e riprenderlo solo dopo una verifica e approvazione manuale, garantendo così maggiore controllo e sicurezza nelle applicazioni sensibili.

Per supportare lo sviluppo di queste applicazioni vocali, OpenAI ha rilasciato un SDK (Software Development Kit) in TypeScript, che permette agli sviluppatori di costruire agenti vocali utilizzando tecnologie web come WebRTC o WebSocket. Questo SDK offre strumenti per gestire l’input e l’output audio, rilevare interruzioni, orchestrare più agenti tramite “handoffs” e implementare “guardrails” per monitorare le risposte dell’agente.

Inoltre, è stata aggiornata la dashboard “Traces”, che ora supporta il monitoraggio delle sessioni vocali in tempo reale. Gli sviluppatori possono visualizzare le onde sonore audio, le chiamate agli strumenti, le interruzioni degli utenti e le risposte dell’agente, facilitando così il debug e l’ottimizzazione delle interazioni vocali.

Infine, è stato migliorato il modello di conversione voce-voce, che ora offre risposte più rapide, voci più naturali e una maggiore fluidità nelle conversazioni, anche quando gli utenti interrompono, rendendo l’interazione con l’intelligenza artificiale più naturale e coinvolgente.

OpenAI potenzia lo sviluppo di agenti vocali con nuove funzionalità in tempo reale

DiFantasy

Di Fantasy

Articoli correlati

Google aggiunge funzioni di supporto psicologico a Gemini dopo una causa legale

Anthropic non rilascia il suo modello AI per la cybersecurity perché considerato troppo pericoloso

L’esplosione degli agenti di coding sovraccarica GitHub: traffico record e interruzioni del servizio

Ultimi Post

Google aggiunge funzioni di supporto psicologico a Gemini dopo una causa legale

Anthropic non rilascia il suo modello AI per la cybersecurity perché considerato troppo pericoloso

L’esplosione degli agenti di coding sovraccarica GitHub: traffico record e interruzioni del servizio

Z.ai lancia GLM-5.1, l’intelligenza artificiale cinese che lavora da sola per otto ore come un vero ingegnere