Un gruppo di ricercatori di Google e Meta ha sviluppato un sistema chiamato AutoTTS che automatizza la progettazione delle strategie di test-time scaling per i modelli linguistici, eliminando la necessità di definire manualmente le logiche con cui un LLM decide quanto “pensare” prima di generare una risposta. L’obiettivo è ottimizzare il compromesso tra accuratezza, tempi di inferenza e costo computazionale, uno dei principali problemi emersi con la diffusione dei modelli di reasoning.
Le tecniche di reasoning avanzato utilizzano spesso molteplici traiettorie di ragionamento, verifiche intermedie e processi di consenso tra risposte differenti. Questo approccio migliora la qualità dei risultati ma aumenta in modo significativo il numero di token elaborati, con impatti diretti sui costi di esecuzione e sulla scalabilità delle applicazioni enterprise.
AutoTTS affronta il problema trasformando la progettazione delle strategie di inferenza in un processo di ricerca automatizzata. Invece di affidarsi a schemi progettati da esperti, il sistema esplora autonomamente differenti configurazioni operative per individuare controller in grado di decidere quando continuare a generare percorsi di reasoning e quando interromperli in modo efficiente.
Nei benchmark utilizzati dai ricercatori, il controller individuato automaticamente ha ridotto il consumo complessivo di token di circa il 69,5% rispetto ad approcci basati su Self-Consistency con 64 percorsi paralleli, mantenendo sostanzialmente invariata l’accuratezza media sui modelli testati. In alcuni scenari ad alto budget computazionale, il sistema ha inoltre superato le prestazioni delle strategie progettate manualmente, ottenendo risultati migliori in diversi test di reasoning avanzato.
I risultati mostrano come la prossima fase dell’evoluzione dei modelli di reasoning non dipenda soltanto dall’aumento della potenza dei modelli stessi, ma anche dalla capacità di ottimizzare in modo intelligente il processo di inferenza. Per le aziende che implementano agenti AI, workflow multi-step e sistemi autonomi basati su LLM, ridurre drasticamente il numero di token necessari può tradursi in un abbattimento significativo dei costi operativi senza compromettere le prestazioni finali. In prospettiva, questo tipo di ricerca apre la strada a piattaforme in grado di progettare autonomamente le proprie strategie di ragionamento, adattandole dinamicamente ai vincoli economici e ai requisiti applicativi di ciascun contesto.