Per molto tempo il mantra è stato chiaro: se un modello sbaglia, fagli “pensare” di più. Aumenta i token concessi al ragionamento, lascia che esplori strade alternative, somma più campioni e poi scegli la risposta migliore.
La ricerca recente di Anthropic ha fatto saltare questa equazione con la precisione di un esperimento clinico: in numerose famiglie di compiti, dal puzzle con distrattori all’applicazione di vincoli logici fino agli scenari più spinosi legati alla sicurezza, l’accuratezza non sale, ma scende proprio mentre il modello dilata il proprio monologo interiore.
L’hanno chiamata “inverse scaling in test-time compute”, un rovesciamento del buon senso secondo cui più cicli cognitivi equivalgono a maggiore lucidità. Osservando le catene di ragionamento passo dopo passo, i ricercatori hanno notato come i modelli, con il crescere dei token, si lascino sedurre da dettagli irrilevanti o restino incollati a ipotesi sbagliate che finiscono per giustificare, rendendo la spiegazione sempre più articolata ma non per questo corretta. È l’effetto valanga del rumore semantico: ad ogni token aggiunto cresce la possibilità che un errore casuale imbocchi una strada sbagliata e la percorra trionfalmente fino alla fine.
Da un punto di vista ingegneristico, il fenomeno suggerisce di trattare il tempo di ragionamento come un bene prezioso da dosare. Non basta impostare catene lunghe o alimentare il modello con centinaia di passaggi intermedi sperando in un miracolo statistico. Diventa cruciale introdurre controllori, verificatori esterni, meccanismi di early exit che si fermino quando la confidenza della risposta è sufficientemente alta, penalizzazioni per catene prolisse e ridondanti.
Alcuni team stanno sperimentando coppie generatore–verificatore: il primo pensa, il secondo controlla e decide se vale la pena continuare. Altri segmentano i task, assegnando budget diversi di ragionamento a seconda del dominio, perché un problema matematico non richiede lo stesso respiro narrativo di una classificazione di sentiment. In definitiva, l’immagine romantica dell’AI che migliora lasciandola “pensare tutta la notte” cede il passo a una visione più chirurgica: servono strumenti per misurare non solo l’output, ma la traiettoria che conduce a quell’output, e serve il coraggio di tirare il freno a mano quando il pensiero inizia a girare a vuoto.