L’evoluzione dei modelli di diffusione ha rivoluzionato il panorama della modellazione generativa, influenzando diverse applicazioni, incluso il processo di creazione di grafica a partire da descrizioni testuali. Tuttavia, per applicazioni pratiche, come la generazione di immagini esteticamente accattivanti da testo, è spesso necessaria una messa a punto più precisa.
Per migliorare la coerenza e la qualità delle immagini generate, i modelli di diffusione testo-immagine sfruttano strategie innovative, come la guida senza classificatori e l’utilizzo di set di dati curati, come LAION Aesthetics.
In un recente studio, gli autori hanno presentato un approccio innovativo noto come “campionamento di diffusione” per perfezionare i premi basati sul gradiente. Questo studio introduce l’idea del “Direct Reward Fine-Tuning” (DRaFT), che si basa su una struttura ricorsiva che considera 50 passaggi di campionamento all’interno di un grafo di calcolo. Questo metodo, invece di apportare modifiche a tutti i parametri del modello, fa uso di checkpoint del gradiente per ottimizzare in modo efficiente la memoria e i costi computazionali, concentrandosi sull’ottimizzazione dei pesi LoRA.
Inoltre, gli autori hanno presentato ulteriori miglioramenti all’approccio DRaFT per aumentarne l’efficacia e le prestazioni. Hanno introdotto DRaFT-K, una variante che limita la propagazione all’indietro per calcolare il gradiente di aggiustamento, concentrandosi solo sui passaggi di campionamento più recenti. Questa strategia si è dimostrata notevolmente più efficace rispetto alla propagazione all’indietro completa, producendo risultati sorprendenti con lo stesso numero di passaggi di addestramento.
Il team di ricerca ha implementato con successo DRaFT in Stable Diffusion 1.4 e lo ha testato con una serie di rinforzi e suggerimenti direzionali diversi. Le loro tecniche basate sul gradiente hanno superato in modo significativo gli approcci tradizionali di regolazione fine basati su RL (Reinforcement Learning) in termini di efficienza. Ad esempio, ottimizzando i punteggi del classificatore LAION Aesthetics, sono riusciti a ottenere un miglioramento di oltre 200 volte rispetto agli algoritmi RL.
Una delle varianti proposte, denominata DRaFT-LV, ha dimostrato una straordinaria efficienza, apprendendo a un ritmo quasi doppio rispetto al metodo precedente noto come ReFL, basato sui gradienti. Inoltre, gli autori hanno dimostrato la versatilità di DRaFT combinando modelli DRaFT con modelli pre-addestrati e regolando i pesi LoRA attraverso diverse tecniche di manipolazione.
In sintesi, la messa a punto esplicita dei modelli di diffusione utilizzando ricompense differenziabili rappresenta un’opzione pratica per migliorare le capacità di modellazione generativa, con implicazioni che abbracciano diverse applicazioni, tra cui immagini e testo. Questo studio sarà di grande utilità per ricercatori e professionisti nei campi dell’apprendimento automatico e della modellazione generativa, grazie alla sua efficienza, adattabilità ed efficacia.