Google DeepMind ha presentato una nuova tecnica per migliorare le prestazioni dei modelli linguistici di grandi dimensioni (LLM), chiamata “Large Language Monkey (LLM)”. Questo metodo si basa su una semplice strategia: ripetere la stessa domanda centinaia di volte e selezionare la risposta migliore tra quelle ottenute.
Pubblicato il 12 agosto da The Information, un articolo congiunto di Google DeepMind, Stanford University e Oxford University spiega il funzionamento di LLM. I ricercatori hanno notato che, mentre l’espansione dell’input di calcolo migliora le prestazioni dei modelli durante la fase di formazione, questo vantaggio non si osserva durante l’inferenza a causa del numero limitato di tentativi.
Per ovviare a questo problema, hanno scelto di ripetere la stessa domanda al modello più volte, aumentando il numero di campioni di inferenza. In pratica, il metodo prevede di porre la stessa domanda al modello quattro o più volte e poi selezionare la risposta più precisa tra quelle ottenute.
Questo metodo è stato testato con un assistente di codifica AI, combinando i modelli “GPT-4o” e “Claude 3.5 Sonnet”. I risultati hanno mostrato che ripetere la domanda ha migliorato la precisione nella generazione del codice, risolvendo il 43% degli errori identificati durante i test di correzione del codice, noti come SWE-Bench Lite.
Il punteggio ottenuto utilizzando questo metodo ha raggiunto il 56%, superando del 13% il punteggio precedente del 43% ottenuto con i modelli GPT-4o e Claude 3.5. Questo dimostra che, anziché utilizzare modelli all’avanguardia, ripetere le domande con modelli meno performanti può essere più efficace e cost-effective.
I ricercatori hanno sottolineato che questo approccio è particolarmente utile perché il modello può automaticamente verificare le risposte, un vantaggio non replicabile facilmente in altre aree, come la scrittura creativa, dove non esistono meccanismi di verifica automatica. In questi casi, selezionare la risposta migliore rimane una sfida significativa.