Con l’avanzare dei modelli linguistici di grandi dimensioni (LLM), le loro capacità di affrontare compiti complessi stanno migliorando. Tuttavia, spesso non riescono a fornire la risposta corretta al primo tentativo. Per questo motivo, cresce l’interesse verso la possibilità di permettere agli LLM di riconoscere e correggere i propri errori, un processo noto come “autocorrezione”. Attualmente, gli approcci esistenti per l’autocorrezione sono limitati e dipendono da requisiti difficili da soddisfare nel mondo reale.
Un nuovo studio di Google DeepMind presenta la tecnica SCoRe (Self-Correction via Reinforcement Learning), che migliora notevolmente le capacità di autocorrezione degli LLM usando solo dati autogenerati. SCoRe rappresenta un importante passo avanti per rendere gli LLM più robusti e affidabili, aprendo nuove opportunità per migliorare le loro abilità di ragionamento e problem-solving.
Aviral Kumar, ricercatore presso Google DeepMind, spiega che “l’autocorrezione è una capacità fondamentale che migliora notevolmente il pensiero umano”. Gli esseri umani tendono a riflettere, provare diverse idee e correggere i propri errori, piuttosto che produrre immediatamente soluzioni corrette. L’obiettivo è che anche gli LLM possano comportarsi in modo simile.
Un LLM efficace nell’autocorrezione dovrebbe essere in grado di rivedere e perfezionare le proprie risposte fino a trovare quella giusta. Questo è cruciale perché, spesso, gli LLM possiedono le informazioni necessarie per risolvere un problema, ma non riescono a utilizzarle correttamente nella risposta iniziale.
Kumar sottolinea che nessun LLM può risolvere automaticamente problemi complessi, proprio come nessun essere umano lo può fare. Quindi, l’obiettivo è far sì che gli LLM impieghino più tempo a riflettere e correggersi per risolvere problemi difficili.
Le tecniche precedenti per abilitare l’autocorrezione negli LLM si basavano su modelli specifici che richiedevano feedback esterni sulla qualità delle risposte. Questi metodi non sfruttavano le capacità intrinseche di autocorrezione del modello. Anche i metodi di fine-tuning supervisionato (SFT), che mirano a correggere gli errori di un modello di base, hanno mostrato limiti, richiedendo spesso feedback umano o l’uso di modelli più potenti, rendendo difficile la loro applicazione pratica.
Inoltre, gli approcci SFT non funzionano bene quando il modello deve rivedere le proprie risposte in più fasi, come accade frequentemente con problemi complessi. Ciò significa che, alla fine dell’addestramento, un modello potrebbe sapere come correggere gli errori ma non essere in grado di identificare i propri.
Autocorrezione Attraverso l’Apprendimento per Rinforzo
Per affrontare queste problematiche, i ricercatori di DeepMind hanno adottato l’apprendimento per rinforzo (RL). Kumar spiega che gli LLM attuali non sono addestrati a riflettere sui propri errori, ma a fornire la migliore risposta possibile a una domanda. Pertanto, è stato sviluppato un metodo per migliorare l’autocorrezione.
SCoRe addestra un singolo modello a generare risposte e correggere i propri errori senza dipendere da feedback esterni, utilizzando esclusivamente dati autogenerati. Questo approccio elimina la necessità di informazioni esterne.
I metodi precedenti di RL per l’autocorrezione si concentravano su interazioni a turno singolo, che potevano portare a risultati indesiderati. SCoRe, invece, utilizza un processo di addestramento in due fasi, ottimizzando le prestazioni di correzione e garantendo che le risposte iniziali siano simili a quelle del modello di base.
La seconda fase utilizza RL multi-turn per ottimizzare la ricompensa, incoraggiando il modello a migliorare le sue risposte. Questo approccio assicura che il modello non si limiti a produrre la risposta migliore al primo tentativo.
I ricercatori di DeepMind hanno testato SCoRe su attività di matematica e programmazione, utilizzando benchmark come MATH e HumanEval. I risultati hanno dimostrato che SCoRe migliora significativamente le capacità di autocorrezione dei modelli Gemini 1.0 Pro e 1.5 Flash. Ad esempio, SCoRe ha ottenuto un miglioramento del 15,6% nell’autocorrezione su MATH e un 9,1% su HumanEval rispetto al modello di base.
Il miglioramento più notevole riguarda la capacità del modello di correggere i propri errori dal primo al secondo tentativo. Inoltre, SCoRe ha ridotto i casi in cui il modello ha cambiato erroneamente una risposta corretta, dimostrando che ha appreso a correggere solo quando necessario.
SCoRe si è rivelato molto efficace anche quando combinato con tecniche di ottimizzazione del tempo di inferenza, aumentando ulteriormente le prestazioni.
Sebbene il focus dello studio sia principalmente su codifica e ragionamento, i ricercatori ritengono che SCoRe possa avere applicazioni più ampie. Ad esempio, potrebbe aiutare i modelli a rivedere e migliorare output potenzialmente dannosi prima di presentarli agli utenti.
Il lavoro di DeepMind sottolinea l’importanza di insegnare agli LLM a ragionare e autocorreggersi, piuttosto che limitarsi a tradurre input in output.