Immagine AI

OpenAI ha recentemente introdotto significativi aggiornamenti al suo framework per lo sviluppo di agenti di intelligenza artificiale, mirando a migliorare l’interazione vocale in tempo reale e a rendere più accessibile la creazione di applicazioni vocali avanzate.

Una delle principali novità è l’introduzione del “RealtimeAgent”, un agente progettato specificamente per gestire interazioni vocali in tempo reale. Questo agente è in grado di ricevere e restituire input vocali, mantenere lo stato durante la conversazione e rispondere prontamente anche quando l’utente interrompe.

Una caratteristica distintiva di questa funzionalità è l’opzione “Human-In-The-Loop” (HITL), che consente di mettere in pausa l’agente durante l’esecuzione, salvare lo stato corrente e riprenderlo solo dopo una verifica e approvazione manuale, garantendo così maggiore controllo e sicurezza nelle applicazioni sensibili.

Per supportare lo sviluppo di queste applicazioni vocali, OpenAI ha rilasciato un SDK (Software Development Kit) in TypeScript, che permette agli sviluppatori di costruire agenti vocali utilizzando tecnologie web come WebRTC o WebSocket. Questo SDK offre strumenti per gestire l’input e l’output audio, rilevare interruzioni, orchestrare più agenti tramite “handoffs” e implementare “guardrails” per monitorare le risposte dell’agente.

Inoltre, è stata aggiornata la dashboard “Traces”, che ora supporta il monitoraggio delle sessioni vocali in tempo reale. Gli sviluppatori possono visualizzare le onde sonore audio, le chiamate agli strumenti, le interruzioni degli utenti e le risposte dell’agente, facilitando così il debug e l’ottimizzazione delle interazioni vocali.

Infine, è stato migliorato il modello di conversione voce-voce, che ora offre risposte più rapide, voci più naturali e una maggiore fluidità nelle conversazioni, anche quando gli utenti interrompono, rendendo l’interazione con l’intelligenza artificiale più naturale e coinvolgente.

Di Fantasy