OpenAI annuncerà presto la versione alpha del suo nuovo motore vocale “Voice Engine”, un sistema di generazione audio-testo. Questo motore vocale, che era stato rivelato per la prima volta a marzo, sarà disponibile alla fine di questo mese.
Il motore vocale, il cui sviluppo è iniziato alla fine del 2022, crea voci molto simili a quelle umane partendo da clip vocali di soli 15 secondi. Questa tecnologia permette di generare voci naturali in diverse lingue e di condurre conversazioni reali con l’IA, comprendendo e rispondendo anche a emozioni e segnali non verbali.
Il motore vocale del modello GPT-4o può personalizzare voci per personaggi, generare effetti sonori per raccontare storie e fornire interpretazioni in tempo reale. In futuro, potrebbe anche includere funzionalità di visione dal vivo per descrivere ciò che l’utente vede.
Tuttavia, a maggio, OpenAI ha annunciato che il lancio ufficiale del motore vocale sarebbe stato posticipato per rafforzare le misure di sicurezza contro i deepfake vocali. Sono state introdotte nuove politiche di sicurezza per il motore vocale AI, che trasformerà il testo in audio.
Per ora, la tecnologia sarà disponibile in fase alpha solo a un ristretto gruppo di partner fidati per raccogliere feedback. Non è ancora chiaro come e quando sarà distribuita al pubblico più ampio.
“Abbiamo in programma di renderla accessibile a tutti gli utenti Plus in autunno, ma la tempistica dipenderà dal nostro raggiungimento di elevati standard di sicurezza e affidabilità”, ha dichiarato un portavoce di OpenAI.
Inoltre, il portavoce ha aggiunto: “Stiamo lavorando a nuove funzionalità per la condivisione di video e schermo, che presenteremo separatamente.”