Google ha introdotto una nuova soluzione sorprendente che potrebbe rivoluzionare la generazione di testo in immagini sui dispositivi mobili. Chiamata “MobileDiffusion: generazione di testo in immagine in subsecondi su dispositivi mobili”, questa soluzione utilizza un efficace modello di diffusione latente progettato specificamente per dispositivi mobili. Il modello sfrutta DiffusionGAN per eseguire il campionamento in un solo passaggio durante l’inferenza, rendendolo estremamente veloce. Test su smartphone Android e iOS premium hanno dimostrato che MobileDiffusion può produrre un’immagine 512×512 di alta qualità in meno di un secondo.
Questo sviluppo è particolarmente promettente per il settore della modellazione 3D per l’e-commerce, in quanto può aumentare notevolmente i margini di profitto degli artisti e ridurre i tempi e i costi di produzione dei modelli 3D. Tuttavia, mentre c’è stata molta attività nel campo del miglioramento dell’efficienza di inferenza dei modelli di diffusione testo-immagine, l’efficienza architetturale dei metodi di dispersione testo-immagine non è stata ancora ampiamente affrontata.
MobileDiffusion si basa sull’architettura UViT e utilizza blocchi di trasformatori aggiuntivi per ottimizzare l’operazione di attenzione, riducendo così il carico computazionale e migliorando l’efficienza. Utilizza inoltre un autocodificatore variazionale (VAE) per ridurre la dimensione spaziale dell’immagine e migliorare le prestazioni complessive.
Inoltre, MobileDiffusion adotta un approccio di inizializzazione pre-addestrato per il generatore e il discriminatore, semplificando il processo di formazione e garantendo risultati migliori.
Questa nuova soluzione promette di rendere la generazione di testo in immagini sui dispositivi mobili più veloce ed efficiente che mai, aprendo nuove possibilità nel campo della modellazione 3D e dell’e-commerce.