Un nuovo approccio proposto per migliorare l’accuratezza dei modelli di intelligenza artificiale (AI) ha suscitato discussioni, con alcuni che lo considerano la “quarta legge di scala”. L’idea consiste nell’aumentare l’accuratezza dei modelli non inferenziali, semplicemente generando più risposte e selezionando la migliore tra di esse. Tuttavia, ci sono anche opinioni contrastanti.
Recentemente, ricercatori di Google e dell’Università della California, Berkeley, hanno presentato un metodo chiamato “Inference-Time Search”, che mira a migliorare le prestazioni dei modelli AI. Il concetto di base è semplice: un modello genera in parallelo più risposte per una determinata query e poi sceglie quella che considera migliore.
Secondo i ricercatori, “Confrontare più risposte può aiutare a capire da dove provengono gli errori o le illusioni, e diversi stili di risposta possono portare a risposte più contestualizzate”. Questo processo è anche noto come “ridimensionamento della ricerca”.
Questo studio si concentra più sul recupero delle risposte corrette che sull’inferenza tradizionale. In passato, era stato sperimentato un approccio in cui la stessa domanda veniva posta a più modelli, e la risposta corretta veniva determinata tramite votazione. Questa volta, invece, il modello aumenta il suo tasso di risposte corrette esaminando diverse opzioni.
Un esempio di questo approccio è stato applicato alla versione precedente di Gemini 1.5 (lanciata nel 2024), che ha generato 200 risposte per una query, selezionandone una. I risultati hanno mostrato che l’accuratezza nelle operazioni matematiche e nel coding ha superato quella di “o1-mini”, avvicinandosi a quella di “o1”.
Eric Zhao di Google ha spiegato: “Invece di concentrarci sui calcoli a lungo termine, abbiamo puntato sulla scalabilità della ricerca. Questo tipo di auto-verifica rende molto più semplice migliorare le prestazioni”.
Molti su Twitter hanno elogiato questo approccio, considerandolo un passo avanti per migliorare i modelli AI. Tuttavia, se sia davvero più efficace rispetto ad altri metodi, è ancora da valutare.
In effetti, un principio simile, noto come “test-time computing” o “terza legge di scala”, è stato introdotto per migliorare i modelli AI concedendo loro più tempo e potenza di calcolo. Questa volta, però, l’approccio non riguarda il pensare a lungo, ma il riflettere molto e poi scegliere la risposta migliore.
Tuttavia, le critiche non mancano. Questo approccio non è nuovo e presenta alcune limitazioni. Matthew Guzdial, professore all’Università di Alberta, ha osservato: “È difficile applicare questo principio a interazioni linguistiche generali, dove non esiste una risposta corretta definita”. Inoltre, Mike Cook, ricercatore al King’s College di Londra, ha sottolineato che questo metodo non migliora il processo di inferenza del modello, ma semplifica solo la ricerca degli errori. Se un modello commette un errore nel 5% dei casi, la differenza è che, generando più risposte, diventa più facile trovare l’errore.
La fattibilità di questo approccio dipenderà dall’adozione da parte dei sviluppatori nel futuro. Nel frattempo, dal 2024, l’idea di migliorare le prestazioni dei modelli AI attraverso la scalabilità si è estesa oltre il pre-addestramento, includendo il post-addestramento tramite tecniche come l’apprendimento per rinforzo e il calcolo in fase di test.