Quando si parla di grandi modelli linguistici (LLM), il pensiero—o meglio, il ragionamento complesso—può diventare incredibilmente costoso dal punto di vista computazionale. Meta AI, insieme all’università della California di San Diego, ha appena introdotto una nuova tecnica che promette di rivoluzionare questo equilibrio delicato: si chiama DeepConf, ed è come un vero e proprio “interruttore” che l’utente può regolare per bilanciare accuratezza e efficienza.
Immagina di affidare a un modello di generazione del testo un compito complesso di ragionamento—come risolvere un problema matematico articolato. Una strategia comune è chiamata self-consistency con majority voting: il modello genera un’intera traccia di ragionamento più volte (decine o centinaia), poi si sceglie la risposta più frequente. Certo, questa tecnica migliora l’affidabilità, ma dissipa risorse come se non ci fosse un domani. E talvolta, aggiungendo più tracce, si ottengono ritorni decrescenti: risposte simili ma imprecise possono “vincere” sull’unica risposta giusta, proprio per via del loro numero.
Anche le tecniche che assegnano un “punteggio globale di fiducia” all’intero ragionamento presentano criticità: spesso mascherano passi scorrette all’interno della traccia e soprattutto non permettono di interrompere per tempo i ragionamenti errati—perché devi completare tutto il percorso prima di valutarlo.
Meta AI e UC San Diego propongono una strada completamente nuova. DeepConf non aspetta la conclusione del ragionamento: osserva il livello di fiducia (confidence) del modello mentre genera la traccia. Con metriche locali — come la confidenza a gruppi, a segmenti, o addirittura il punto “meno fidato” del ragionamento — riesce a comprendere dove il modello vacilla.
Due modalità:
- Offline, quando tutte le tracce sono già generate: seleziona le più forti, dando più peso ai migliori ragionamenti o scartando quelli più deboli prima del voto finale. È molto più robusto del semplice majority voting.
- Online, con controllo in tempo reale: se un ragionamento mostra segnali di inaffidabilità, lo interrompe subito. Risultato? Molta meno energia sprecata, e performance migliori sin dall’inizio.
Nella sperimentazione con vari modelli open-source (DeepSeek‑8B, Qwen3‑32B, GPT‑OSS‑120B), su benchmark molto impegnativi come AIME e HMMT, DeepConf ha dato risultati stellari. In modalità offline, con GPT‑OSS‑120B su AIME 2025, si è arrivati al 99,9 % di accuratezza, contro il 97 % della maggioranza classica. In modalità online, è riuscito a ridurre il numero di token generati fino all’84,7 %, mantenendo o addirittura migliorando l’accuratezza.
Ad esempio, su AIME24, DeepSeek‑8B ha migliorato l’accuratezza pur consumando meno del 22 % dei token necessari col metodo tradizionale. Anche in situazioni meno aggressive, DeepConf‑high (analogamente a una soglia bassa di filtro) garantisce risparmi intorno al 18‑59 % con accuratezza quasi invariata.
Un articolo approfondito riassume: DeepConf “boosts accuracy to as high as 99.9 percent while cutting the number of tokens used by up to 85 percent”.
Ciò è così rilevante per le applicazioni reali, perché:
- Utilizza solo segnali interni del modello, senza bisogno di ri-addestramenti o modifiche agli hyperparametri.
- Può essere integrato facilmente in sistemi LLM già attivi — come vLLM — con poche righe di codice.
- Mette fine a un problema pratico molto diffuso: risparmiare risorse (tempo, energia, calcolo) senza sacrificare la qualità del risultato.
Naturalmente, non è una soluzione magica priva di rischi. In scenari dove il modello è troppo sicuro in un ragionamento sbagliato, DeepConf—soprattutto nella versione più aggressiva—potrebbe premiare l’errore e tagliare via il ragionamento corretto. Per questo, in certi casi è più prudente usare un filtro meno rigido.
In definitiva, DeepConf è molto più che un semplice trucco: è un approccio elegante e pratico che introduce un meccanismo simile all’autocontrollo nel modello. Ci dice non solo quando pensare, ma quanto pensare, con attenzione e giudizio.