Un gruppo di ricercatori di Cohere e dell’Università di Oxford ha sviluppato un nuovo approccio per migliorare i modelli di ricompensa (RM) nell’apprendimento di rinforzo dal feedback umano (RLHF), utilizzando critiche sintetiche. Questo metodo mira a ridurre i costi e il tempo necessari per l’annotazione umana.
Nell’articolo intitolato “Migliorare i modelli di ricompensa con le critiche sintetiche”, i ricercatori propongono di utilizzare grandi modelli linguistici (LLM) per generare critiche che possano allineare altri modelli linguistici. Gli RM sono addestrati per prevedere un punteggio che rispecchia le preferenze umane, ma l’annotazione manuale richiede tempo e risorse significative. Inoltre, questi modelli tendono a concentrarsi su caratteristiche superficiali del set di dati di addestramento, riducendo la loro capacità di generalizzare su nuove distribuzioni.
Per affrontare questi problemi, i ricercatori suggeriscono di usare LLM per generare critiche, valutando la relazione tra i prompt e gli output generati e prevedendo premi scalari. Le sperimentazioni hanno dimostrato che le critiche sintetiche possono migliorare significativamente le prestazioni degli RM.
Queste critiche offrono feedback su vari aspetti, come l’accuratezza e lo stile, migliorando la capacità dei modelli di ricompensa di valutare e punteggiare meglio i modelli linguistici. Ad esempio, GPT-4o è riuscito a eguagliare, e in alcuni casi superare, gli RM senza critiche sintetiche.
I ricercatori sottolineano che l’uso di critiche sintetiche può aumentare l’efficienza dei dati. In particolare, una coppia di preferenze migliorata da critiche di alta qualità può valere quanto 40 coppie di preferenze non migliorate. Questo approccio potrebbe rendere l’ottenimento di modelli di ricompensa competitivi molto più conveniente.
Attualmente, tutte le principali aziende di intelligenza artificiale, tra cui Google, OpenAI e Meta, utilizzano l’approccio della ricompensa per allineare i loro LLM. Tuttavia, la ricerca sulla sostituzione dell’RLHF con l’apprendimento di rinforzo dal feedback AI (RLAIF) è in corso presso Google Research, che ha dimostrato che l’RLHF ha ancora un vantaggio. Questo nuovo metodo di critiche sintetiche potrebbe però cambiare la situazione a favore dell’IA.