Il mondo dell’Intelligenza Artificiale Generativa ha compiuto progressi strabilianti, ma ha sempre lottato con un problema fondamentale: la mancanza di una vera comprensione delle leggi fisiche che governano il mondo reale. I modelli esistenti, pur essendo eccezionali nel generare immagini e video basati su pixel 2D, spesso producono risultati che, a un’analisi più attenta, risultano innaturali o fisicamente incoerenti. Questa limitazione è stata superata dal team di ricerca del professor Kim Tae-kyun presso il KAIST (Korea Advanced Institute of Science and Technology), che ha sviluppato “MPM Avatar”, un modello di AI generativa spaziale e fisica che promette di chiudere il divario tra la creazione digitale e la realtà.

La sfida principale affrontata dal team era superare i limiti della tecnologia 2D basata sui pixel, che, pur essendo efficiente, manca della profondità necessaria per comprendere l’interazione degli oggetti in uno spazio tridimensionale. Per risolvere questo problema, i ricercatori hanno adottato un approccio innovativo che combina due tecniche avanzate: il Gaussian Splatting e la simulazione fisica.

Il processo inizia con l’uso del Gaussian Splatting per ricostruire filmati multi-visione in un modello 3D dettagliato dello spazio. Immaginate di scattare foto da diverse angolazioni e di ricomporle in un ambiente tridimensionale. Una volta che lo spazio e gli oggetti sono ricostruiti volumetricamente, il modello introduce le tecniche di simulazione fisica, consentendo agli oggetti al suo interno di muoversi e interagire come farebbero nel mondo reale.

L’elemento cruciale risiede nell’apprendimento automatico: il sistema di AI calcola il materiale, la forma e il movimento degli oggetti in risposta alle forze esterne, confrontando poi questi calcoli con i dati visivi reali. Attraverso questo confronto costante e mirato, l’AI è in grado di apprendere autonomamente le leggi della fisica in modo implicito.

MPM Avatar deve il suo nome all’integrazione del modello con il Material Point Method (MPM), una tecnica di simulazione numerica particolarmente efficace per modellare il comportamento di materiali complessi e deformabili, come fluidi e solidi che subiscono grandi deformazioni.

Per la realizzazione del modello, lo spazio 3D viene espresso non come un insieme di poligoni, ma come una moltitudine di punti discreti. A ciascuno di questi punti vengono applicati sia il Gaussian Splatting (per la resa visiva) sia l’MPM (per la coerenza fisica). Questo approccio ibrido consente al sistema di ottenere simultaneamente movimenti fisicamente naturali e una renderizzazione video fotorealistica. In sostanza, scomponendo lo spazio in un mare di piccoli punti, il modello può far muovere e deformare ciascuno di essi come se fossero particelle di materia reale, garantendo che, ad esempio, un tessuto “morbido” si muova come tale.

L’efficacia di MPM Avatar è particolarmente evidente nella sua capacità di riprodurre in modo realistico il movimento di persone con abiti larghi e le loro interazioni con l’ambiente. Ma l’impresa più significativa è il successo nella generazione di risultati “zero-shot”, ovvero la capacità dell’AI di inferire e creare dati mai visti o appresi in precedenza, mantenendo al contempo una completa coerenza fisica.

Il professor Kim ha evidenziato come questa tecnologia rappresenti un passo cruciale che porta l’AI oltre la semplice generazione di immagini o video, permettendole di “capire il perché il mondo appare in un certo modo”. L’abilità di comprendere e prevedere le leggi fisiche è vista come il fondamento della “Physical AI” e un punto di svolta fondamentale per l’avanzamento verso l’Intelligenza Artificiale Generale (AGI).

Il team del KAIST non si ferma qui: è già al lavoro per estendere la tecnologia e sviluppare un modello in grado di generare video 3D coerenti dal punto di vista fisico basandosi unicamente su un input testuale dell’utente. I risultati di questa pionieristica ricerca, condotta in collaborazione con gli studenti Changmin Lee e Jihyun Lee, saranno presentati alla prestigiosa conferenza accademica internazionale Neural Information Processing Systems (NeurIPS) a dicembre, con il codice del programma che sarà reso interamente pubblico per contribuire all’avanzamento della ricerca globale nel settore.

Di Fantasy