Un recente studio condotto dalle Università di Tsinghua e Shanghai Jiao Tong ha esaminato l’efficacia dell’apprendimento per rinforzo con ricompense verificabili (RLVR) nel migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). I ricercatori hanno scoperto che, sebbene l’RLVR possa aumentare la probabilità di fornire una risposta corretta al primo tentativo, non consente ai modelli di sviluppare nuove modalità di pensiero o di risolvere problemi mai affrontati prima.
L’RLVR è una tecnica che addestra i modelli assegnando una ricompensa quando forniscono risposte corrette a domande verificabili automaticamente, come problemi matematici o di programmazione. Tuttavia, lo studio ha evidenziato che questa metodologia non insegna ai modelli nuovi modi di pensare; piuttosto, li aiuta a trovare più rapidamente le risposte corrette che già conoscono. In altre parole, l’RLVR migliora l’efficienza nel selezionare risposte corrette preesistenti, ma non espande la capacità del modello di affrontare problemi nuovi o complessi.
I ricercatori hanno confrontato le prestazioni di modelli addestrati con RLVR con quelle dei modelli di base, sottoponendoli a una serie di problemi di matematica, programmazione e ragionamento visivo. I risultati hanno mostrato che, quando i modelli avevano a disposizione solo poche possibilità di rispondere, quelli addestrati con RLVR performavano meglio. Tuttavia, con un numero maggiore di tentativi, i modelli di base riuscivano a ottenere risultati simili o addirittura superiori. Questo suggerisce che l’RLVR può limitare la capacità del modello di esplorare diverse soluzioni, restringendo così il suo campo di ragionamento.
Un aspetto interessante emerso dallo studio è che l’RLVR non è privo di valore. Molti ricercatori ritengono che questa tecnica sia utile per migliorare l’efficienza dei modelli nel fornire risposte corrette in contesti specifici. Tuttavia, per sviluppare modelli in grado di affrontare una vasta gamma di problemi e pensare in modo creativo, è necessario adottare approcci diversi, come la distillazione del sapere da modelli più grandi o l’uso di tecniche che promuovano una maggiore esplorazione delle soluzioni.