Google DeepMind, in collaborazione con il Massachusetts Institute of Technology (MIT) e la New York University (NYU), ha recentemente pubblicato uno studio innovativo che introduce il concetto di “scaling del tempo di inferenza” per i modelli di diffusione.
I modelli di diffusione sono una classe di modelli generativi che iniziano il processo di generazione da un “rumore puro” e, attraverso una serie di passaggi di denoising, producono output puliti basati sull’input fornito. Tradizionalmente, l’aumento del numero di questi passaggi di denoising durante l’inferenza ha migliorato la qualità dell’immagine generata. Tuttavia, lo studio di DeepMind esplora ulteriormente questo concetto, investigando come l’allocazione di risorse computazionali aggiuntive durante l’inferenza possa migliorare ulteriormente le prestazioni dei modelli di diffusione.
I ricercatori hanno sviluppato un framework di ricerca composto da due componenti principali: i “verificatori”, che forniscono feedback sulla qualità dell’immagine generata, e gli algoritmi di ricerca, che identificano i candidati di rumore iniziale ottimali. Questo approccio ha dimostrato che l’aumento del tempo di inferenza porta a miglioramenti sostanziali nella qualità dei campioni generati. In particolare, i risultati indicano che modelli di dimensioni ridotte, quando combinati con metodi di ricerca durante l’inferenza, possono superare le prestazioni di modelli più grandi che non utilizzano tali metodi. Ciò suggerisce che i costi elevati di addestramento possono essere parzialmente compensati da un modesto aumento del calcolo durante l’inferenza, permettendo la generazione di campioni di alta qualità in modo più efficiente.
Questo concetto di “scaling del tempo di inferenza” è già stato applicato con successo nei modelli di linguaggio di grandi dimensioni (LLM). Ad esempio, OpenAI ha implementato tecniche di ricerca sofisticate durante l’inferenza nei suoi modelli di ragionamento, dimostrando che l’allocazione di maggiori risorse computazionali in questa fase può produrre risposte di qualità superiore e più contestualmente appropriate. L’applicazione di principi simili ai modelli di diffusione rappresenta un passo significativo verso l’ottimizzazione delle prestazioni dei modelli generativi, bilanciando i costi di addestramento con l’efficienza computazionale durante l’inferenza.