I ricercatori di Google hanno sviluppato un nuovo sistema di intelligenza artificiale in grado di generare video realistici di persone che parlano, gesticolano e si muovono, partendo da una sola foto. La tecnologia, denominata VLOGGER, si basa su modelli avanzati di apprendimento automatico per creare filmati sorprendentemente realistici, il che apre diverse possibilità applicative ma solleva anche preoccupazioni riguardo ai deepfake e alla disinformazione.
Secondo quanto riportato in un documento di ricerca intitolato “VLOGGER: Multimodal Diffusion for Embody Avatar Synthesis”, il modello di intelligenza artificiale può prendere una foto di una persona e un clip audio come input, quindi produrre un video che corrisponde all’audio, mostrando la persona che pronuncia le parole e facendo espressioni facciali, movimenti della testa e gesti delle mani corrispondenti. I video non sono perfetti, con alcuni difetti, ma rappresentano un notevole passo avanti nella capacità di animare immagini statiche.
I ricercatori, guidati da Enric Corona di Google Research, hanno utilizzato modelli di apprendimento automatico chiamati modelli di diffusione per ottenere questo risultato. Questi modelli hanno dimostrato recentemente ottime prestazioni nel generare immagini altamente realistiche da descrizioni testuali. Estendendo questa capacità al dominio dei video e formandoli su un vasto nuovo set di dati denominato MENTOR, che contiene oltre 800.000 identità diverse e 2.200 ore di video, il team è riuscito a creare un sistema di intelligenza artificiale che può animare le foto in modo molto convincente.
Secondo gli autori, a differenza dei metodi precedenti, il loro approccio non richiede la formazione per ogni persona, non si basa sul rilevamento e sul ritaglio del volto, genera l’immagine completa e considera un’ampia gamma di scenari, come la visibilità del torso o diverse identità dei soggetti, che sono fondamentali per la corretta sintesi di esseri umani che comunicano.
La tecnologia offre diverse possibilità di utilizzo, come il doppiaggio automatico dei video in altre lingue, la modifica e il riempimento dei fotogrammi mancanti in un video e la creazione di video completi di una persona da una singola foto. Potrebbe anche essere utilizzata per creare avatar fotorealistici per la realtà virtuale e i giochi, oltre che per sviluppare assistenti virtuali e chatbot più coinvolgenti ed espressivi.
Tuttavia, l’uso improprio della tecnologia potrebbe portare alla creazione di deepfake, ossia video sintetici in cui una persona viene sostituita con le sembianze di un’altra. Ciò potrebbe aumentare le sfide legate alla disinformazione e alla falsità digitale.
Sebbene VLOGGER rappresenti un significativo avanzamento, ha ancora dei limiti. I video generati sono relativamente brevi e hanno uno sfondo statico, e non c’è movimento in un ambiente 3D. Inoltre, sebbene i modi e i toni di parlato siano realistici, non sono ancora indistinguibili da quelli delle persone reali.
Tuttavia, VLOGGER segna un passo avanti significativo, come dimostrato dalla valutazione su tre diversi parametri di riferimento che ha superato altri metodi all’avanguardia in termini di qualità dell’immagine, conservazione dell’identità e coerenza temporale, secondo gli autori.
Con ulteriori sviluppi, questo tipo di media generati dall’intelligenza artificiale potrebbero diventare comuni, portandoci verso un futuro in cui sarà difficile distinguere se una persona in un video è reale o generata da un programma per computer. VLOGGER offre un assaggio di quel futuro, rappresentando sia un notevole progresso nell’intelligenza artificiale che un’indicazione delle sfide crescenti nel distinguere ciò che è reale da ciò che è falso.