DeepMind ha recentemente scoperto un modo per migliorare le prestazioni dei modelli linguistici di grandi dimensioni (LLM) aumentando il tempo di inferenza, cioè il tempo dedicato all’elaborazione delle richieste. Questo approccio consente ai modelli di “pensare” e “rispondere” in modo più accurato.
Venture Beat ha riportato che DeepMind e UC Berkeley hanno pubblicato un metodo innovativo per ottimizzare le prestazioni dei LLM. Questo metodo prevede di allocare più risorse di calcolo durante l’inferenza, permettendo ai modelli di migliorare le loro risposte senza la necessità di aumentare la dimensione del modello o di effettuare una formazione preliminare più lunga.
Tradizionalmente, per migliorare le prestazioni di un LLM si aumentano i parametri del modello e le risorse per la formazione, ma questo approccio può essere costoso e poco pratico per dispositivi con risorse limitate. Il nuovo metodo di DeepMind, invece, si concentra sull’uso ottimale delle risorse durante l’inferenza per migliorare l’accuratezza delle risposte, specialmente per le richieste complesse.
I ricercatori hanno trovato che, proprio come gli esseri umani riflettono più a lungo sui problemi difficili per prendere decisioni migliori, i LLM possono fornire risposte più accurate quando viene aumentato il tempo di elaborazione per input complessi.
Sono stati identificati due approcci principali per ampliare le risorse durante l’inferenza:
- Campionamento Parallelo: Il modello genera più risposte contemporaneamente e seleziona quella più accurata.
- Campionamento Sequenziale: Il modello modifica e perfeziona la risposta in più passaggi.
I ricercatori hanno combinato entrambi gli approcci per migliorare le prestazioni. Hanno effettuato esperimenti utilizzando il modello “PaLM-2” di Google sul benchmark MATH, scoprendo che il campionamento sequenziale è efficace per problemi semplici, mentre per problemi complessi è più utile il campionamento parallelo o un meccanismo di verifica avanzato.
Il miglioramento delle prestazioni con l’aumento del tempo di inferenza è stato notevole, consentendo ai modelli più piccoli di raggiungere prestazioni simili a quelle di modelli più grandi e costosi. Tuttavia, per i problemi più difficili, l’ulteriore pre-addestramento rimane utile e non può essere completamente sostituito dal solo incremento del tempo di inferenza.