Immagine AI

Nell’intelligenza artificiale, la velocità di risposta è un fattore cruciale per applicazioni in tempo reale, come assistenti virtuali, giochi interattivi e sistemi di supporto decisionale. Tradizionalmente, i modelli linguistici di grandi dimensioni (LLM) autoregressivi, come GPT, sono stati i protagonisti in termini di prestazioni, ma la loro capacità di ragionamento complesso è limitata dalla loro architettura sequenziale. D’altra parte, i modelli linguistici basati su diffusione (dLLM) offrono vantaggi significativi in termini di parallelismo e qualità del ragionamento. Tuttavia, l’adozione di tecniche avanzate di ragionamento, come l’apprendimento per rinforzo (RL), è stata ostacolata dalla difficoltà di calcolare le probabilità di sequenza in questi modelli.​

Per affrontare queste sfide, i ricercatori di UCLA e Meta AI hanno sviluppato il framework D1, un approccio innovativo che integra l’apprendimento per rinforzo nei dLLM, migliorando significativamente le loro capacità di ragionamento e riducendo i tempi di risposta.​

Il framework D1 è progettato per adattare i modelli linguistici basati su diffusione pre-addestrati in modelli di ragionamento avanzato. Questo processo avviene in due fasi principali:​

Fine-tuning supervisionato (SFT): In questa fase, il modello viene addestrato su un dataset di alta qualità contenente esempi di ragionamento passo-passo, come il dataset “s1k”. Questi esempi includono soluzioni dettagliate a problemi, con esempi di autocorrezione e retrocessione quando si verificano errori. L’obiettivo è instillare nel modello schemi e comportamenti fondamentali di ragionamento.​

Apprendimento per rinforzo con diffu-GRPO: Successivamente, il modello subisce un addestramento RL utilizzando un algoritmo innovativo chiamato “diffu-GRPO”. Questo algoritmo adatta i principi del GRPO ai dLLM, introducendo un metodo efficiente per stimare le probabilità logaritmiche e incorporando una tecnica chiamata “random prompt masking” per migliorare l’apprendimento.​

L’applicazione del framework D1 ha portato a miglioramenti significativi nelle prestazioni dei modelli linguistici basati su diffusione:​

  • Miglioramento delle capacità di ragionamento: I modelli D1 hanno mostrato una maggiore capacità di affrontare compiti complessi, come il ragionamento matematico e logico, rispetto ai modelli tradizionali.​
  • Riduzione dei tempi di risposta: Grazie al parallelismo intrinseco dei dLLM e all’efficienza del framework D1, i modelli sono in grado di fornire risposte più rapide, rendendoli ideali per applicazioni in tempo reale.​
  • Apprendimento autonomo e autocorrezione: I modelli D1 hanno dimostrato comportamenti di autocorrezione e retrocessione, simili agli “aha moments”, indicando una comprensione più profonda dei compiti e una maggiore robustezza nelle risposte.

Di Fantasy