OpenAI rilascia Point-E, un 3D DALL.E
Point-E farà per la generazione di immagini 3D ciò che DALL.E ha fatto per le immagini 2D.
DALL-E 2 è stato uno dei modelli basati su trasformatore più in voga nel 2022, ma OpenAI ha appena rilasciato un fratello di questo modello di diffusione altamente capace. In un documento presentato il 16 dicembre, il team di OpenAI ha descritto Point-E, un metodo per generare nuvole di punti 3D da prompt di testo complessi.
Con questo, gli appassionati di intelligenza artificiale possono andare oltre il testo in immagine 2D e sintetizzare in modo generativo modelli 3D con testo. Il progetto è stato anche reso open source su Github, così come i pesi del modello per vari numeri di parametri.
Il modello è solo una delle parti che fanno funzionare la soluzione. Il nocciolo del paper sta nel metodo proposto per la creazione di oggetti 3D attraverso un metodo di diffusione che lavora su nuvole di punti. L’algoritmo è stato creato con particolare attenzione alla realtà virtuale, ai giochi e al design industriale, in quanto può generare oggetti 3D fino a 600 volte più velocemente rispetto ai metodi attuali.
Esistono due modi in cui attualmente funzionano i modelli da testo a 3D. Il primo è addestrare modelli generativi su dati che hanno un oggetto 3D per l’abbinamento del testo. Ciò comporta l’incapacità di comprendere richieste più complesse e problemi con i set di dati 3D. Il secondo approccio consiste nell’utilizzare modelli testo-immagine per ottimizzare la creazione di rappresentazioni 3D del prompt.
Point-E combina i metodi tradizionali di addestramento degli algoritmi per la sintesi da testo a 3D. Utilizzando due modelli separati accoppiati insieme, Point-E può ridurre la quantità per creare un oggetto 3D. Il primo set di algoritmi è un modello text-to-image, probabilmente DALL-E 2, che può creare un’immagine del prompt fornito dall’utente. Questa immagine viene quindi utilizzata come base per il secondo modello, che converte l’immagine in un oggetto 3D.
Il team di OpenAI ha creato un set di dati di diversi milioni di modelli 3D, che hanno poi esportato tramite Blender. Questi rendering sono stati quindi elaborati per estrarre i dati dell’immagine come una nuvola di punti, che è un modo per indicare la densità di composizione dell’oggetto 3D. Dopo un’ulteriore elaborazione, come la rimozione di oggetti piatti e il clustering tramite funzionalità CLIP, il set di dati era pronto per essere inserito nel modello GLIDE di View Synthesis.
I ricercatori hanno quindi creato un nuovo metodo per la diffusione della nuvola di punti rappresentando la nuvola di punti come un tensore di una forma. Questi tensori vengono quindi ridotti da una forma casuale alla forma dell’oggetto 3D richiesto attraverso il progressivo denoising. L’output di questo modello di diffusione viene quindi eseguito attraverso un upsampler di nuvole di punti che migliora la qualità dell’output finale. Per compatibilità con le comuni applicazioni 3D, le nuvole di punti vengono quindi convertite in mesh utilizzando Blender.
Queste mesh possono quindi essere utilizzate in giochi, applicazioni metaverse o altre attività intensive 3D come la post-elaborazione per i film. Mentre DALL-E ha già rivoluzionato il processo di generazione del testo in immagine, Point-E mira a fare lo stesso per lo spazio 3D. La creazione rapida di oggetti e forme 3D su richiesta è un passo importante verso la generazione di paesaggi 3D utilizzando l’intelligenza artificiale.