I modelli linguistici di grandi dimensioni (LLM) hanno dominato la scena AI grazie alle loro impressionanti capacità di elaborazione del linguaggio naturale. Tuttavia, una recente ricerca del Shanghai AI Laboratory ha rivelato che anche i modelli linguistici di piccole dimensioni (SLM) possono eccellere in compiti di ragionamento complessi attraverso una tecnica chiamata “test-time scaling” (TTS). Questa scoperta apre nuove prospettive sull’efficienza e l’efficacia dei modelli di intelligenza artificiale più compatti.
Il test-time scaling si riferisce all’allocazione di risorse computazionali aggiuntive durante la fase di inferenza di un modello, con l’obiettivo di migliorarne le prestazioni su specifici compiti. Tradizionalmente, i modelli come OpenAI GPT-4 e DeepSeek-R1 utilizzano una forma di TTS interna, generando catene di pensiero dettagliate per affrontare problemi complessi. Questo approccio implica che il modello “pensi” più lentamente, producendo una sequenza estesa di token che rappresentano il processo di ragionamento.
In contrasto, il TTS esterno potenzia le prestazioni del modello attraverso strumenti esterni, senza richiedere un’ulteriore fase di addestramento. Questo metodo è particolarmente utile per adattare modelli esistenti a nuovi compiti di ragionamento. Un tipico setup di TTS esterno comprende un “modello di policy”, responsabile della generazione delle risposte, e un “process reward model” (PRM) che valuta la qualità di queste risposte. Questi componenti interagiscono tramite metodi di campionamento o ricerca per ottimizzare le risposte fornite.
La scelta della strategia di TTS più appropriata dipende da vari fattori, tra cui la natura del compito e le risorse disponibili. La ricerca del Shanghai AI Laboratory ha condotto un’analisi sistematica su come diversi modelli di policy e PRM influenzino l’efficienza delle diverse metodologie di TTS. I risultati indicano che l’efficacia del TTS è strettamente correlata alle caratteristiche intrinseche del modello di policy utilizzato.
Ad esempio, in un approccio “best-of-N”, il modello di policy genera multiple risposte, e il PRM seleziona quella più appropriata. Metodi più avanzati, come la “beam search”, suddividono la risposta in vari passaggi, campionando diverse opzioni per ciascuno e selezionando le migliori attraverso il PRM. Un’altra tecnica, denominata “diverse verifier tree search” (DVTS), crea diverse ramificazioni di risposte per ottenere un insieme più variegato di candidati, che vengono poi sintetizzati in una risposta finale coerente.
La capacità di piccoli modelli linguistici di competere, e talvolta superare, i loro omologhi più grandi in compiti di ragionamento ha implicazioni significative per l’industria dell’intelligenza artificiale. Le aziende sono costantemente alla ricerca di soluzioni efficienti che bilancino prestazioni elevate con costi computazionali contenuti. L’adozione di tecniche di TTS potrebbe permettere l’implementazione di modelli più piccoli in applicazioni pratiche, riducendo la necessità di infrastrutture costose e consumi energetici elevati.
Inoltre, questa scoperta stimola una riflessione più ampia sulla direzione futura della ricerca nell’IA. Mentre l’attenzione è spesso focalizzata sulla creazione di modelli sempre più grandi e complessi, il test-time scaling suggerisce che l’ottimizzazione e l’innovazione nelle tecniche di inferenza possono sbloccare potenzialità nascoste anche in architetture più modeste. Questo approccio potrebbe portare a soluzioni più sostenibili e accessibili, democratizzando l’accesso a potenti strumenti di intelligenza artificiale.