Negli ultimi anni, abbiamo assistito a un notevole progresso nelle prestazioni, nell’efficienza e nelle capacità di generazione dei nuovi modelli di intelligenza artificiale generativa. Questi modelli, che sfruttano ampi set di dati e tecniche di generazione di diffusione 2D, sono ora in grado di generare una vasta gamma di contenuti multimediali, tra cui testo, immagini, video, GIF e altro ancora.

In questo articolo, esploreremo il framework Zero123++, un modello di intelligenza artificiale generativa che si concentra sulla generazione di immagini coerenti in 3D da un singolo input di visualizzazione. L’obiettivo principale del framework è minimizzare l’effort necessario per ottenere risultati di alta qualità, sfruttando i progressi dei modelli generativi preaddestrati.

Il framework Zero123++ è una continuazione di Zero123 (o Zero-1-to-3) e si occupa di una sfida fondamentale: la generazione di immagini 3D coerenti. Tuttavia, le immagini generate dal framework possono ancora presentare incongruenze geometriche visibili, che costituiscono un problema chiave da risolvere.

Per affrontare questa sfida, il framework Zero123++ si basa su un approccio di layout a piastrellatura, che significa che l’oggetto da generare è circondato da sei viste in un’unica immagine. Questo approccio consente una modellazione più accurata della distribuzione congiunta delle immagini multi-vista.

Un’altra sfida è l’efficace utilizzo delle risorse offerte da Stable Diffusion, una tecnica di generazione. Il framework Zero123++ implementa tecniche di condizionamento per massimizzare l’utilizzo delle risorse di Stable Diffusion e garantire una qualità di generazione costante.

Per garantire una generazione coerente delle immagini multi-vista, il framework Zero123++ fa uso dell’attenzione di riferimento in scala. Questa tecnica consente al modello di generare immagini che condividono trama e contenuto semantico con un’immagine di riferimento.

Inoltre, il framework propone l’utilizzo di un meccanismo di guida lineare addestrabile per incorporare il condizionamento dell’immagine globale nel processo di generazione. Questo migliora notevolmente la capacità del framework di dedurre la semantica globale degli oggetti.

Il framework Zero123++ è stato addestrato utilizzando il modello Stable Diffusion 2v come base e ha ottenuto risultati impressionanti nella generazione di immagini multi-vista coerenti e realistiche, anche per immagini al di fuori del dominio.

In confronto con altri framework all’avanguardia, il Zero123++ ha dimostrato di avere prestazioni superiori, evidenziando la sua efficacia nel generare contenuti di alta qualità.

Tuttavia, nonostante il successo, il framework Zero123++ ha ancora potenziali aree di miglioramento, tra cui la considerazione di un modello di raffinazione a due stadi per affrontare le sfide di coerenza globale e ulteriori scale-up per migliorare ulteriormente la qualità delle immagini generate.

Di Fantasy