Nel recente studio pubblicato lunedì, i ricercatori di Google Research e della Johns Hopkins University hanno esaminato da vicino l’efficacia dei modelli di intelligenza artificiale (AI) nell’ambito della generazione di immagini. I risultati di questa ricerca sfidano l’idea comunemente accettata che “più grande è sempre meglio”, e potrebbero avere un impatto significativo sullo sviluppo di sistemi AI più efficienti.
Lo studio, guidato dai ricercatori Kangfu Mei e Zhengzhong Tu, si è concentrato sui modelli di diffusione latente (LDM) e sulla loro abilità di ridimensionamento e campionamento. Gli LDM sono una categoria di modelli AI utilizzati per generare immagini di alta qualità a partire da descrizioni testuali.
Per esaminare il legame tra le dimensioni del modello e le prestazioni, i ricercatori hanno addestrato una serie di 12 LDM, variando il numero di parametri da 39 milioni a 5 miliardi. Questi modelli sono stati poi valutati in diversi compiti, tra cui la generazione di testo in immagini, la super risoluzione e la sintesi basata sul soggetto.
In modo sorprendente, lo studio ha rivelato che i modelli più piccoli possono spesso ottenere risultati migliori rispetto a quelli più grandi quando operano con un determinato budget di risorse di calcolo. Ciò significa che, in situazioni in cui le risorse computazionali sono limitate, modelli più compatti potrebbero generare immagini di qualità superiore.
I ricercatori hanno anche scoperto che l’efficienza di campionamento dei modelli più piccoli rimane costante tra diversi metodi di campionamento e anche nei modelli distillati, che sono versioni più compatte dei modelli originali. Questo suggerisce che i vantaggi dei modelli più piccoli non dipendono solo dai metodi di campionamento o di compressione utilizzati.
Tuttavia, lo studio ha anche evidenziato che i modelli più grandi sono ancora superiori nel generare dettagli molto fini quando non vi sono vincoli computazionali. Quindi, anche se i modelli più piccoli possono essere più efficienti in alcune circostanze, ci sono situazioni in cui i modelli più grandi sono ancora preferibili.
Questo studio ha implicazioni significative nello sviluppo di sistemi AI per la generazione di immagini più efficienti. Comprendendo meglio le proprietà di scalabilità dei modelli LDM e trovando un equilibrio tra dimensioni del modello e prestazioni, i ricercatori possono creare modelli AI che sono efficienti senza sacrificare la qualità.
Questi risultati riflettono la tendenza attuale nella comunità dell’AI, dove modelli più piccoli stanno dimostrando di essere più performanti dei loro omologhi più grandi in vari compiti. La spinta verso modelli open source più piccoli ed efficienti mira a rendere l’AI accessibile a un pubblico più ampio, consentendo agli sviluppatori di creare sistemi AI che possono funzionare su dispositivi meno potenti senza perdere in qualità.