Un team di ricercatori dell’Università Tecnologica di Nanyang, Singapore (NTU Singapore), ha realizzato un notevole progresso nel campo dell’intelligenza artificiale e della comunicazione multimediale con lo sviluppo di DIRFA (Diverse yet Realistic Facial Animations). Questo programma basato sull’intelligenza artificiale è capace di trasformare una semplice clip audio e una foto statica del viso in video animati 3D estremamente realistici, che mostrano una perfetta sincronizzazione labiale con l’audio e un’ampia gamma di espressioni facciali e movimenti naturali della testa.
DIRFA utilizza un algoritmo avanzato per fondere audio e immagini fotografiche, creando video 3D. Analizza modelli e toni del parlato per prevedere e replicare espressioni facciali e movimenti della testa. Questo supera i limiti delle tecnologie precedenti, spesso incapaci di catturare accuratamente le sottigliezze delle emozioni umane o di gestire diverse pose della testa.
L’innovazione di DIRFA non è solo un avanzamento tecnologico, ma anche un passo verso una comunicazione digitale più personale ed espressiva. Il programma è stato addestrato su oltre un milione di clip audiovisive del set di dati VoxCeleb2, comprendente una vasta gamma di espressioni facciali, movimenti della testa e modelli linguistici di oltre 6.000 individui. Questo addestramento ha permesso a DIRFA di identificare e replicare le sfumature delle espressioni e del linguaggio umano.
Il professore associato Lu Shijian e il dottor Wu Rongliang, rispettivamente autore corrispondente e primo autore dello studio, hanno sottolineato l’impatto profondo e vasto del loro lavoro nel campo della comunicazione multimediale, combinando tecniche di intelligenza artificiale e apprendimento automatico.
DIRFA trova applicazione nel settore sanitario per lo sviluppo di assistenti virtuali e chatbot, migliorando l’esperienza utente nelle piattaforme sanitarie digitali. È inoltre utile per assistere persone con disabilità del linguaggio o facciali, consentendo loro di esprimersi attraverso avatar espressivi o rappresentazioni digitali.
Nonostante il successo di DIRFA, rimangono sfide da affrontare, come la cattura della diversità e sottigliezza delle espressioni umane e l’aggiornamento dell’interfaccia del programma. Il team NTU prevede di migliorare DIRFA con set di dati più diversificati, per affinare ulteriormente l’accuratezza e il realismo delle animazioni facciali.
DIRFA rappresenta un passo importante verso la creazione di rappresentazioni digitali accurate e realistiche, migliorando la qualità e l’autenticità della comunicazione digitale e promettendo modi più coinvolgenti ed espressivi di interagire nello spazio digitale.