Un recente studio condotto dai ricercatori di Google Research e dell’Università della California, Berkeley, ha rivelato che un approccio sorprendentemente semplice può migliorare significativamente le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). La chiave di questa scoperta risiede nell’ampliare l’uso del “campionamento basato sulla ricerca”, una tecnica che prevede la generazione di multiple risposte e l’utilizzo del modello stesso per verificarle.
Tradizionalmente, per potenziare le capacità di ragionamento degli LLM durante la fase di test, si è ricorso a metodi come l’addestramento tramite apprendimento per rinforzo per generare risposte più articolate con tracciati di pensiero (Chain-of-Thought, CoT). Sebbene efficaci, questi approcci richiedono investimenti significativi nella fase di addestramento. Un’altra tecnica è la “self-consistency”, dove il modello genera multiple risposte a una query e sceglie quella più frequentemente proposta. Tuttavia, questa metodologia mostra i suoi limiti quando si affrontano problemi complessi, poiché la risposta più comune non è necessariamente quella corretta.
Il campionamento basato sulla ricerca offre un’alternativa più semplice e altamente scalabile: il modello genera diverse risposte e seleziona la migliore attraverso un meccanismo di verifica. Questo approccio può essere applicato a qualsiasi LLM, inclusi quelli non esplicitamente addestrati per il ragionamento, e presenta il vantaggio unico di essere facilmente parallelizzabile, permettendo una scalabilità arbitraria semplicemente aumentando il numero di campioni generati.
I ricercatori hanno focalizzato la loro attenzione su un’implementazione minimalista di questa tecnica, utilizzando il modello linguistico sia per generare le risposte candidate sia per verificarle. Questo processo di “auto-verifica” consente al modello di valutare i propri output senza affidarsi a risposte di riferimento esterne o a sistemi di verifica simbolica.
Il processo si articola in tre fasi principali:
- Generazione di risposte candidate: il modello genera una serie di soluzioni possibili per il problema posto, utilizzando lo stesso prompt più volte con un’impostazione di temperatura non nulla per garantire diversità nelle risposte.
- Verifica delle risposte: ogni risposta candidata viene sottoposta a un processo di verifica in cui il modello valuta ripetutamente la correttezza della risposta, aggregando poi i risultati per ottenere un punteggio finale di verifica.
- Selezione della risposta finale: la risposta con il punteggio di verifica più alto viene scelta come soluzione definitiva. Se più risposte ottengono punteggi simili, il modello effettua confronti a coppie per determinare la migliore.
Lo studio ha evidenziato che le performance di ragionamento continuano a migliorare con l’aumentare del campionamento basato sulla ricerca, superando i limiti raggiunti da metodi come la self-consistency. Ad esempio, il modello Gemini 1.5 Pro ha ottenuto risultati superiori rispetto a o1-Preview su benchmark di ragionamento come AIME e MATH.
È importante notare che, sebbene i risultati ottenuti siano impressionanti, i costi computazionali possono diventare proibitivi. Ad esempio, con 200 campioni e 50 passaggi di verifica per campione, una singola query può generare circa 130 milioni di token, con un costo stimato di $650 utilizzando Gemini 1.5 Pro. Tuttavia, ottimizzazioni come l’impiego di modelli più piccoli per la verifica possono ridurre significativamente questi costi.
I ricercatori hanno identificato due strategie chiave per migliorare l’auto-verifica nei modelli linguistici:
- Confronto diretto tra risposte candidate: fornendo al verificatore multiple risposte da confrontare, il modello può identificare meglio errori e allucinazioni, affrontando una delle principali debolezze degli LLM.
- Riformulazione specifica per il compito: riscrivere le risposte in uno stile più strutturato (ad esempio, in formato teorema-lemma-dimostrazione) facilita la verifica e migliora l’accuratezza.