OpenAI ha recentemente condiviso i risultati della sua ultima ricerca riguardante la trasformazione di prompt di testo in oggetti tridimensionali chiamati Shap-E. Questo strumento innovativo, basato sull’intelligenza artificiale generativa, offre un nuovo modo di creare oggetti 3D, generando risultati migliori, più dettagliati e precisi rispetto al modello Point-E, rilasciato l’anno scorso.
Shap-E è stato creato come un generatore di testo in 3D che produce trame fini e forme complesse e dettagliate. A differenza di Point-E, che genera nuvole di punti 3D basandosi sui prompt di testo, Shap-E crea direttamente il contorno dell’oggetto utilizzando una tecnica chiamata NeRF (Neural Radiance Fields) per superare i problemi di sfocatura del modello precedente. I NeRF sono la stessa tecnologia utilizzata nella realtà virtuale e aumentata per creare ambienti tridimensionali fotorealistici. Shap-E applica questa tecnologia ai modelli di diffusione più comuni per dare forma e texture all’oggetto, basandosi sul prompt di testo fornito. Inoltre, il processo di generazione è significativamente più veloce rispetto a Point-E. Ogni esempio di Shap-E richiede solo circa 13 secondi per essere generato su una singola GPU NVIDIA V100, mentre Point-E richiederebbe fino a due minuti per lo stesso rendering su hardware simile.
I ricercatori hanno affermato che “abbiamo scoperto che Shap-E è all’altezza o addirittura supera un modello generativo esplicito simile quando vengono utilizzati gli stessi dati di addestramento, l’architettura del modello e le risorse computazionali”. Hanno inoltre evidenziato che i modelli puramente condizionati dal testo possono generare oggetti diversi e interessanti senza dipendere dalle immagini come rappresentazione intermedia. Questi risultati dimostrano il grande potenziale delle rappresentazioni implicite, soprattutto nel campo del 3D, dove offrono maggiore flessibilità rispetto alle rappresentazioni esplicite.
Gli sviluppatori di Shap-E riconoscono che l’utilizzo su larga scala potrebbe richiedere una potenza di calcolo significativa rispetto all’approccio basato su nuvole di punti di Point-E. Inoltre, l’intelligenza artificiale ancora presenta difficoltà nel comprendere come generare alcuni oggetti complessi. Tuttavia, i risultati complessivi ottenuti sono notevoli e promettenti.