L’ottimizzazione dei modelli di linguaggio di grandi dimensioni (LLM) ha spinto i ricercatori a esplorare tecniche come lo “scaling” durante l’inferenza, ovvero l’aumento delle risorse computazionali per migliorare le prestazioni. Tuttavia, uno studio recente di Microsoft Research ha rivelato che questa strategia non sempre porta ai risultati sperati.
La ricerca ha esaminato nove modelli di base all’avanguardia, tra cui GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro e Llama 3.1 405B, nonché modelli specificamente ottimizzati per il ragionamento tramite scaling durante l’inferenza, come o1 e o3-mini di OpenAI, Claude 3.7 Sonnet di Anthropic, Gemini 2 Flash Thinking di Google e DeepSeek R1. I ricercatori hanno applicato tre approcci di scaling:
- Chain-of-Thought (CoT) standard: il modello risponde passo dopo passo.
- Scaling parallelo: il modello genera risposte multiple per la stessa domanda e utilizza un aggregatore per selezionare la migliore.
- Scaling sequenziale: il modello genera una risposta e utilizza il feedback per perfezionarla in tentativi successivi.
Questi approcci sono stati testati su otto set di dati di riferimento, coprendo una vasta gamma di compiti che beneficiano di una risoluzione passo dopo passo, come matematica, pianificazione del calendario, problemi NP-difficili, navigazione e ragionamento spaziale. I risultati hanno mostrato che l’efficacia dello scaling varia significativamente tra i modelli e i compiti, suggerendo che l’aumento delle risorse computazionali non garantisce sempre un miglioramento delle prestazioni.
Questi risultati hanno importanti implicazioni per le aziende che cercano di integrare l’IA avanzata nelle loro applicazioni. L’adozione di tecniche di scaling durante l’inferenza potrebbe non portare ai miglioramenti attesi e potrebbe comportare costi aggiuntivi senza un ritorno proporzionale in termini di prestazioni. Pertanto, è essenziale per le imprese comprendere le variabilità nelle prestazioni dei modelli e considerare attentamente le strategie di implementazione per ottimizzare l’efficienza e l’affidabilità delle soluzioni basate sull’IA.