Durante il periodo delle elezioni, i ricercatori di Microsoft hanno creato un nuovo sistema di intelligenza artificiale chiamato VASA-1, capace di produrre video incredibilmente realistici di volti che parlano partendo da una singola immagine e un audio.

VASA-1 va oltre la semplice sincronizzazione labiale, catturando una vasta gamma di espressioni facciali, emozioni e movimenti della testa, incluso il controllo su aspetti come la direzione dello sguardo e la distanza percepita.

Utilizzando l’intelligenza artificiale, VASA-1 separa diversi componenti facciali come espressioni, posizione 3D della testa e movimenti delle labbra, consentendo il controllo e la modifica indipendenti di ciascun aspetto.

Questa tecnologia permette di creare video di alta qualità con movimenti facciali e della testa realistici, aprendo la strada a esperienze interattive con avatar che imitano le sfumature naturali della conversazione umana.

Il responsabile del progetto, Min Choi, paragona VASA-1 alla tecnologia EMO di Alibaba, che può creare video “talking head” altamente realistici da una singola immagine e un audio.

Tuttavia, sorge la preoccupazione riguardo al possibile utilizzo improprio della tecnologia deepfake, specialmente durante le elezioni.

I ricercatori sottolineano le potenziali applicazioni positive di VASA-1, come migliorare le esperienze educative, assistere le persone con difficoltà di comunicazione e offrire compagnia o supporto terapeutico.

Di Fantasy