Immagini AI: arriva LlamaGen

DiFantasy

Giu 12, 2024

L’Università di Hong Kong e ByteDance hanno annunciato LlamaGen, una nuova famiglia di modelli autoregressivi progettati per la generazione di immagini ad alta risoluzione. Questi modelli superano quelli più diffusi come LDM e DiT.

La novità di LlamaGen è nell’applicare il paradigma di “previsione del token successivo” usato nei modelli linguistici anche al dominio visivo, senza basarsi su preconcetti specifici per la visione.

I modelli LlamaGen variano da 111 milioni a 3,1 miliardi di parametri e ottengono un notevole punteggio FID (Frequent Inception Distance) su benchmark impegnativi come ImageNet 256×256, superando i modelli di diffusione all’avanguardia.

I ricercatori hanno sviluppato un tokenizzatore di immagini che ottiene ottimi risultati di ricostruzione e utilizzo del codebook, paragonabili a modelli di diffusione.

Per la generazione condizionale del testo, un modello LlamaGen addestrato su milioni di coppie immagine-testo dimostra una qualità visiva competitiva e allineamento del testo su istruzioni complesse.

Un vantaggio di LlamaGen è la capacità di sfruttare le tecniche di ottimizzazione dei modelli linguistici di grandi dimensioni, con un notevole miglioramento della velocità.

Anche se attualmente non è al passo con i modelli più recenti su alcuni parametri, i ricercatori credono che LlamaGen apra la strada a modelli unificati che combinano linguaggio e visione, puntando a ulteriori miglioramenti con più dati e calcolo.

Con il recente rilascio di modelli come Sora di OpenAI e Veo di Google, l’interesse per i modelli di intelligenza artificiale da testo a video sta crescendo. Le innovazioni nella generazione di immagini potrebbero essere applicate anche a modelli di generazione video open source, portandoli al livello dei modelli più avanzati.

Immagini AI: arriva LlamaGen

DiFantasy

Di Fantasy

Articoli correlati

OpenAI rilascia l’app Codex per Windows

Google Workspace CLI: il nuovo strumento che permette agli agenti AI di usare Gmail, Docs e Sheets

ChatGPT cambia rotta: gli acquisti non si faranno più nella chat ma direttamente sulle app dei negozi

Ultimi Post

OpenAI rilascia l’app Codex per Windows

Google Workspace CLI: il nuovo strumento che permette agli agenti AI di usare Gmail, Docs e Sheets

ChatGPT cambia rotta: gli acquisti non si faranno più nella chat ma direttamente sulle app dei negozi

Netflix acquista la tecnologia di Ben Affleck per migliorare i film con l’aiuto dell’intelligenza artificiale