Intel svela LDM3D che crea immagini 3D realistiche dai prompt di testo

Intel ha appena annunciato il suo nuovo modello chiamato Latent Diffusion Model for 3D (LDM3D), presentato alla conferenza annuale “CVPR 2023” sulla visione artificiale e il riconoscimento di modelli tenutasi in Canada il 22 (ora locale). LDM3D rappresenta un importante passo avanti nell’intelligenza artificiale generativa, in quanto è in grado di generare modelli 3D realistici a 360 gradi utilizzando descrizioni testuali come input.

LDM3D è stato sviluppato in collaborazione con Blockade Labs, ed è stato addestrato su un database campione chiamato LAION-400M, che contiene oltre 400 milioni di immagini e didascalie. Questo addestramento intensivo ha consentito a LDM3D di generare immagini 3D e mappe di profondità utilizzando solo prompt di testo. A differenza dei modelli generativi precedenti, che si limitavano alla creazione di immagini 2D, LDM3D è in grado di fornire informazioni di profondità precise per ogni pixel dell’immagine generata, consentendo una maggiore accuratezza e realismo.

L’obiettivo di LDM3D è quello di rivoluzionare il modo in cui gli utenti interagiscono con i contenuti digitali. Le immagini e le mappe di profondità generate da LDM3D consentono agli utenti di trasformare le descrizioni testuali in dettagliati panorami a 360 gradi di ambientazioni come spiagge tropicali, grattacieli moderni o mondi fantascientifici. Questa capacità di creare contenuti 3D dettagliati apre le porte a numerose applicazioni innovative, tra cui intrattenimento, giochi, interior design, elenchi immobiliari, musei virtuali e esperienze di realtà virtuale.

LDM3D è stato addestrato utilizzando un supercomputer Intel AI equipaggiato con un processore Intel Xeon e un acceleratore Intel Havana Gaudi AI. Questo modello combinato con la pipeline di elaborazione utilizza immagini RGB e mappe di profondità generate per creare una vista a 360 gradi immersiva. Grazie a questa tecnologia, è possibile creare spazi virtuali 3D realistici come grattacieli moderni o ambientazioni futuristiche che troviamo solitamente nei film di fantascienza.

Per dimostrare il potenziale di LDM3D, Intel e Blockade Labs hanno sviluppato anche un’applicazione chiamata DepthFusion. Questa applicazione sfrutta foto 2D standard e mappe di profondità per creare esperienze di visualizzazione coinvolgenti e interattive a 360 gradi. Inoltre, LDM3D è stato premiato con il Best Paper Award alla conferenza CVPR 2023, che si è svolta a Vancouver, Canada, dal 18 al 22.

LDM3D è disponibile come progetto open source tramite Hugging Face, il che significa che i ricercatori nel campo dell’intelligenza artificiale possono contribuire ulteriormente allo sviluppo del sistema e adattarlo alle loro specifiche esigenze. Questo apre la porta a ulteriori progressi e innovazioni nel campo della generazione di contenuti visivi 3D con l’intelligenza artificiale.

Intel svela LDM3D che crea immagini 3D realistiche dai prompt di testo

DiFantasy

Di Fantasy

Articoli correlati

Anthropic porta gli Artifacts in Claude Code: dashboard live, workspace condivisi e pagine interattive generate direttamente dalle sessioni di sviluppo

OpenAI aggiunge analytics e controlli di spesa a ChatGPT Enterprise per gestire i consumi di ChatGPT e Codex

Midjourney Medical presenta Ultrasonic CT: scansione completa del corpo in 60 secondi con tomografia a ultrasuoni e ricostruzione computazionale

Ultimi Post

Anthropic porta gli Artifacts in Claude Code: dashboard live, workspace condivisi e pagine interattive generate direttamente dalle sessioni di sviluppo

OpenAI aggiunge analytics e controlli di spesa a ChatGPT Enterprise per gestire i consumi di ChatGPT e Codex

Midjourney Medical presenta Ultrasonic CT: scansione completa del corpo in 60 secondi con tomografia a ultrasuoni e ricostruzione computazionale

OpenAI presenta un AI chemist quasi autonomo che migliora la reazione Chan–Lam per la chimica farmaceutica