DIRFA trasforma clip audio in volti digitali 3D realistici

Un team di ricercatori dell’Università Tecnologica di Nanyang, Singapore (NTU Singapore), ha realizzato un notevole progresso nel campo dell’intelligenza artificiale e della comunicazione multimediale con lo sviluppo di DIRFA (Diverse yet Realistic Facial Animations). Questo programma basato sull’intelligenza artificiale è capace di trasformare una semplice clip audio e una foto statica del viso in video animati 3D estremamente realistici, che mostrano una perfetta sincronizzazione labiale con l’audio e un’ampia gamma di espressioni facciali e movimenti naturali della testa.

DIRFA utilizza un algoritmo avanzato per fondere audio e immagini fotografiche, creando video 3D. Analizza modelli e toni del parlato per prevedere e replicare espressioni facciali e movimenti della testa. Questo supera i limiti delle tecnologie precedenti, spesso incapaci di catturare accuratamente le sottigliezze delle emozioni umane o di gestire diverse pose della testa.

L’innovazione di DIRFA non è solo un avanzamento tecnologico, ma anche un passo verso una comunicazione digitale più personale ed espressiva. Il programma è stato addestrato su oltre un milione di clip audiovisive del set di dati VoxCeleb2, comprendente una vasta gamma di espressioni facciali, movimenti della testa e modelli linguistici di oltre 6.000 individui. Questo addestramento ha permesso a DIRFA di identificare e replicare le sfumature delle espressioni e del linguaggio umano.

Il professore associato Lu Shijian e il dottor Wu Rongliang, rispettivamente autore corrispondente e primo autore dello studio, hanno sottolineato l’impatto profondo e vasto del loro lavoro nel campo della comunicazione multimediale, combinando tecniche di intelligenza artificiale e apprendimento automatico.

DIRFA trova applicazione nel settore sanitario per lo sviluppo di assistenti virtuali e chatbot, migliorando l’esperienza utente nelle piattaforme sanitarie digitali. È inoltre utile per assistere persone con disabilità del linguaggio o facciali, consentendo loro di esprimersi attraverso avatar espressivi o rappresentazioni digitali.

Nonostante il successo di DIRFA, rimangono sfide da affrontare, come la cattura della diversità e sottigliezza delle espressioni umane e l’aggiornamento dell’interfaccia del programma. Il team NTU prevede di migliorare DIRFA con set di dati più diversificati, per affinare ulteriormente l’accuratezza e il realismo delle animazioni facciali.

DIRFA rappresenta un passo importante verso la creazione di rappresentazioni digitali accurate e realistiche, migliorando la qualità e l’autenticità della comunicazione digitale e promettendo modi più coinvolgenti ed espressivi di interagire nello spazio digitale.

DIRFA trasforma clip audio in volti digitali 3D realistici

DiFantasy

Di Fantasy

Articoli correlati

Meta presenta Muse Image con ricerca web e anticipa il modello Muse Video

OpenAI introduce GPT-Live per rendere la voce di ChatGPT più continua e naturale

Microsoft porta i modelli MAI dentro Excel e Outlook per ridurre la dipendenza dai fornitori esterni

Ultimi Post

Meta presenta Muse Image con ricerca web e anticipa il modello Muse Video

OpenAI introduce GPT-Live per rendere la voce di ChatGPT più continua e naturale

Microsoft porta i modelli MAI dentro Excel e Outlook per ridurre la dipendenza dai fornitori esterni

Perplexity prepara l’assistente AI Teammate per lo sviluppo software in concorrenza con Claude Code e Cursor