Un gruppo di ricercatori di Adobe Research e dell’Australian National University ha fatto un passo avanti nel campo dell’intelligenza artificiale, sviluppando un modello AI che può trasformare una foto 2D in un modello 3D dettagliato in soli cinque secondi. Questo progresso, illustrato nel loro studio “LRM: Large Reconstruction Model for Single Image to 3D”, potrebbe avere impatti significativi in settori vari come gaming, animazione, design industriale e le tecnologie AR e VR.
“Il nostro obiettivo è rendere possibile la creazione di una forma 3D da un’unica immagine di qualsiasi oggetto, un traguardo che ha ampie applicazioni nel design, nell’animazione, nei giochi e nelle tecnologie AR/VR”, hanno spiegato i ricercatori.
LRM si distingue dai precedenti approcci per la sua architettura di rete neurale scalabile, basata su trasformatori con più di 500 milioni di parametri, addestrata end-to-end su quasi un milione di oggetti 3D. Questo modello è in grado di prevedere un campo di radianza neurale (NeRF) direttamente dall’immagine data.
“La combinazione di un modello ad alta capacità con un ampio volume di dati di addestramento permette al nostro sistema di generalizzare e produrre ricostruzioni 3D di alta qualità da un’ampia gamma di immagini di test, incluse quelle acquisite spontaneamente e quelle del mondo reale”, riporta lo studio.
Yicong Hong, l’autore principale, afferma che LRM segna un cambiamento nel panorama della ricostruzione 3D da immagine singola. “LRM è il primo modello di questa scala; conta più di 500 milioni di parametri apprendibili e si basa su un milione di forme 3D e dati video di varie categorie”, spiega.
Test dimostrano che LRM può creare modelli 3D precisi da immagini reali e da quelle generate da modelli AI come DALL-E e Stable Diffusion, conservando dettagli e texture complesse.
Le applicazioni potenziali di LRM sono ampie, dal design industriale all’intrattenimento, potenzialmente riducendo tempo e risorse nel processo di creazione di modelli 3D per videogiochi o animazioni, e potenziando la prototipazione in design industriale da disegni 2D. In AR/VR, LRM potrebbe offrire esperienze utente migliorate generando ambienti 3D dettagliati in tempo reale da immagini 2D.
L’abilità di LRM di processare immagini “in the wild” apre a possibilità di contenuti creati dagli utenti e alla democratizzazione della modellazione 3D. Gli utenti potrebbero creare modelli 3D dalle foto dei propri smartphone, ampliando le opportunità creative e commerciali.
Nonostante alcune limitazioni come la generazione di texture meno nitide in aree nascoste, i ricercatori vedono nel loro lavoro una dimostrazione delle potenzialità dei grandi modelli basati su trasformatori addestrati su vasti dataset per apprendere abilità di ricostruzione 3D.
La ricerca spera di ispirare ulteriori studi per esplorare modelli di ricostruzione 3D di grandi dimensioni che generalizzino bene con immagini casuali. Per vedere di più sulle capacità di LRM, è possibile visitare la pagina del progetto del team.