Uso di critiche sintetiche per addestrare modelli di Intelligenza Artificiale?

Un gruppo di ricercatori di Cohere e dell’Università di Oxford ha sviluppato un nuovo approccio per migliorare i modelli di ricompensa (RM) nell’apprendimento di rinforzo dal feedback umano (RLHF), utilizzando critiche sintetiche. Questo metodo mira a ridurre i costi e il tempo necessari per l’annotazione umana.

Nell’articolo intitolato “Migliorare i modelli di ricompensa con le critiche sintetiche”, i ricercatori propongono di utilizzare grandi modelli linguistici (LLM) per generare critiche che possano allineare altri modelli linguistici. Gli RM sono addestrati per prevedere un punteggio che rispecchia le preferenze umane, ma l’annotazione manuale richiede tempo e risorse significative. Inoltre, questi modelli tendono a concentrarsi su caratteristiche superficiali del set di dati di addestramento, riducendo la loro capacità di generalizzare su nuove distribuzioni.

Per affrontare questi problemi, i ricercatori suggeriscono di usare LLM per generare critiche, valutando la relazione tra i prompt e gli output generati e prevedendo premi scalari. Le sperimentazioni hanno dimostrato che le critiche sintetiche possono migliorare significativamente le prestazioni degli RM.

Queste critiche offrono feedback su vari aspetti, come l’accuratezza e lo stile, migliorando la capacità dei modelli di ricompensa di valutare e punteggiare meglio i modelli linguistici. Ad esempio, GPT-4o è riuscito a eguagliare, e in alcuni casi superare, gli RM senza critiche sintetiche.

I ricercatori sottolineano che l’uso di critiche sintetiche può aumentare l’efficienza dei dati. In particolare, una coppia di preferenze migliorata da critiche di alta qualità può valere quanto 40 coppie di preferenze non migliorate. Questo approccio potrebbe rendere l’ottenimento di modelli di ricompensa competitivi molto più conveniente.

Attualmente, tutte le principali aziende di intelligenza artificiale, tra cui Google, OpenAI e Meta, utilizzano l’approccio della ricompensa per allineare i loro LLM. Tuttavia, la ricerca sulla sostituzione dell’RLHF con l’apprendimento di rinforzo dal feedback AI (RLAIF) è in corso presso Google Research, che ha dimostrato che l’RLHF ha ancora un vantaggio. Questo nuovo metodo di critiche sintetiche potrebbe però cambiare la situazione a favore dell’IA.

Uso di critiche sintetiche per addestrare modelli di Intelligenza Artificiale?

DiFantasy

Di Fantasy

Articoli correlati

22 bug nel browser Firefox: lo studio di Anthropic e Mozilla

Agente AI ROME di Alibaba ha tentato di estrarre criptovalute durante l’addestramento

LocalCowork e il modello LFM2-24B-A2B: agenti intelligenti di Liquid AI eseguiti interamente in locale per ambienti aziendali sensibili

Ultimi Post

22 bug nel browser Firefox: lo studio di Anthropic e Mozilla

Agente AI ROME di Alibaba ha tentato di estrarre criptovalute durante l’addestramento

LocalCowork e il modello LFM2-24B-A2B: agenti intelligenti di Liquid AI eseguiti interamente in locale per ambienti aziendali sensibili

HumanLM: simulare il comportamento umano con l’AI