L’Università di Hong Kong e ByteDance hanno annunciato LlamaGen, una nuova famiglia di modelli autoregressivi progettati per la generazione di immagini ad alta risoluzione. Questi modelli superano quelli più diffusi come LDM e DiT.
La novità di LlamaGen è nell’applicare il paradigma di “previsione del token successivo” usato nei modelli linguistici anche al dominio visivo, senza basarsi su preconcetti specifici per la visione.
I modelli LlamaGen variano da 111 milioni a 3,1 miliardi di parametri e ottengono un notevole punteggio FID (Frequent Inception Distance) su benchmark impegnativi come ImageNet 256×256, superando i modelli di diffusione all’avanguardia.
I ricercatori hanno sviluppato un tokenizzatore di immagini che ottiene ottimi risultati di ricostruzione e utilizzo del codebook, paragonabili a modelli di diffusione.
Per la generazione condizionale del testo, un modello LlamaGen addestrato su milioni di coppie immagine-testo dimostra una qualità visiva competitiva e allineamento del testo su istruzioni complesse.
Un vantaggio di LlamaGen è la capacità di sfruttare le tecniche di ottimizzazione dei modelli linguistici di grandi dimensioni, con un notevole miglioramento della velocità.
Anche se attualmente non è al passo con i modelli più recenti su alcuni parametri, i ricercatori credono che LlamaGen apra la strada a modelli unificati che combinano linguaggio e visione, puntando a ulteriori miglioramenti con più dati e calcolo.
Con il recente rilascio di modelli come Sora di OpenAI e Veo di Google, l’interesse per i modelli di intelligenza artificiale da testo a video sta crescendo. Le innovazioni nella generazione di immagini potrebbero essere applicate anche a modelli di generazione video open source, portandoli al livello dei modelli più avanzati.