Google ha recentemente annunciato lo sviluppo di una tecnologia di intelligenza artificiale (AI) progettata per creare effetti vocali e sonori adatti ai video. Questa innovazione è stata sviluppata in collaborazione con Parker Labs, Eleven Labs, Stability AI e Gaudio Labs, in un contesto di crescente competizione nel campo dell’audio, parallela allo sviluppo dell’intelligenza artificiale per la creazione di video.
Il blog ufficiale di Google DeepMind ha rivelato che Google sta lavorando su una tecnologia chiamata “V2A (video-to-audio)” che genera una colonna sonora per i video utilizzando istruzioni da video, audio e testo.
Recentemente, è stato mostrato un esempio utilizzando clip di “Vio”, un’altra intelligenza artificiale di Google per la generazione di video, rilasciata il mese scorso. Questa tecnologia genera una vasta gamma di suoni e dialoghi che si adattano al video, utilizzando l’analisi dei pixel per generare audio e voce in base alla situazione.
Il modello di apprendimento utilizzato combina contenuti video, audio e conversazioni, suggerendo che questa tecnologia potrebbe rivoluzionare non solo la creazione di video generati dall’intelligenza artificiale, ma anche il lavoro cinematografico tradizionale.
Startup come Gaudio Labs, sviluppatrice di tecnologie simili a quella di Google, prevedono che l’adozione di suggerimenti video accelererà notevolmente il lavoro sonoro nella post-produzione cinematografica. Questo sarà particolarmente vantaggioso per chi lavora con archivi e immagini storiche.
PikaLab ha già introdotto una funzione a pagamento lo scorso marzo per aggiungere voce ed effetti sonori ai video generati, mentre Eleven Labs e Stability AI hanno presentato funzionalità simili il mese scorso.
Google ha specificato che la tecnologia V2A non è ancora completa e, poiché non è stata addestrata su un ampio numero di video, attualmente non può produrre audio di alta qualità.
DeepMind ha annunciato che la tecnologia V2A verrà testata e valutata rigorosamente con il feedback dei principali produttori e registi, prima di essere completamente resa disponibile per il pubblico. Questo processo è cruciale per garantire la sicurezza e l’affidabilità dell’innovazione.