Intel ha appena annunciato il suo nuovo modello chiamato Latent Diffusion Model for 3D (LDM3D), presentato alla conferenza annuale “CVPR 2023” sulla visione artificiale e il riconoscimento di modelli tenutasi in Canada il 22 (ora locale). LDM3D rappresenta un importante passo avanti nell’intelligenza artificiale generativa, in quanto è in grado di generare modelli 3D realistici a 360 gradi utilizzando descrizioni testuali come input.
LDM3D è stato sviluppato in collaborazione con Blockade Labs, ed è stato addestrato su un database campione chiamato LAION-400M, che contiene oltre 400 milioni di immagini e didascalie. Questo addestramento intensivo ha consentito a LDM3D di generare immagini 3D e mappe di profondità utilizzando solo prompt di testo. A differenza dei modelli generativi precedenti, che si limitavano alla creazione di immagini 2D, LDM3D è in grado di fornire informazioni di profondità precise per ogni pixel dell’immagine generata, consentendo una maggiore accuratezza e realismo.
L’obiettivo di LDM3D è quello di rivoluzionare il modo in cui gli utenti interagiscono con i contenuti digitali. Le immagini e le mappe di profondità generate da LDM3D consentono agli utenti di trasformare le descrizioni testuali in dettagliati panorami a 360 gradi di ambientazioni come spiagge tropicali, grattacieli moderni o mondi fantascientifici. Questa capacità di creare contenuti 3D dettagliati apre le porte a numerose applicazioni innovative, tra cui intrattenimento, giochi, interior design, elenchi immobiliari, musei virtuali e esperienze di realtà virtuale.
LDM3D è stato addestrato utilizzando un supercomputer Intel AI equipaggiato con un processore Intel Xeon e un acceleratore Intel Havana Gaudi AI. Questo modello combinato con la pipeline di elaborazione utilizza immagini RGB e mappe di profondità generate per creare una vista a 360 gradi immersiva. Grazie a questa tecnologia, è possibile creare spazi virtuali 3D realistici come grattacieli moderni o ambientazioni futuristiche che troviamo solitamente nei film di fantascienza.
Per dimostrare il potenziale di LDM3D, Intel e Blockade Labs hanno sviluppato anche un’applicazione chiamata DepthFusion. Questa applicazione sfrutta foto 2D standard e mappe di profondità per creare esperienze di visualizzazione coinvolgenti e interattive a 360 gradi. Inoltre, LDM3D è stato premiato con il Best Paper Award alla conferenza CVPR 2023, che si è svolta a Vancouver, Canada, dal 18 al 22.
LDM3D è disponibile come progetto open source tramite Hugging Face, il che significa che i ricercatori nel campo dell’intelligenza artificiale possono contribuire ulteriormente allo sviluppo del sistema e adattarlo alle loro specifiche esigenze. Questo apre la porta a ulteriori progressi e innovazioni nel campo della generazione di contenuti visivi 3D con l’intelligenza artificiale.