La tecnologia dei modelli linguistici di grandi dimensioni (LLM) sta affrontando una sfida cruciale legata alla latenza e ai costi operativi, specialmente nel contesto dei flussi di lavoro basati su agenti che richiedono lunghe catene di pensiero (Chain of Thought). Tradizionalmente, questi modelli operano secondo il paradigma della Next Token Prediction (NTP), un processo sequenziale in cui ogni calcolo produce un singolo token. Per superare questo collo d’bottiglia, un team di ricerca composto da istituzioni di prestigio come l’Università del Maryland e Together AI ha sviluppato una tecnica innovativa denominata “Multi-Token Prediction via Self-Distillation”. Questo metodo permette di triplicare la velocità di ragionamento senza stravolgere l’architettura interna dei modelli, integrando il meccanismo di accelerazione direttamente nei pesi esistenti.

Il cuore tecnico della proposta risiede nel superamento dei limiti della previsione multi-token (MTP) tradizionale, che spesso generava output incoerenti o ripetitivi a causa di una scarsa coordinazione tra i token predetti simultaneamente. Per risolvere questo problema, i ricercatori hanno introdotto una struttura di “distillazione online” basata sul paradigma studente-insegnante. In questo schema, il modello studente impara a generare blocchi di token in parallelo, mentre un modello insegnante (un LLM a predizione singola già consolidato) funge da supervisore. L’insegnante valuta la coerenza probabilistica e naturale dei blocchi prodotti dallo studente, assegnando una funzione di perdita elevata in caso di sequenze semanticamente errate. Questo processo di feedback continuo è tecnicamente assimilabile all’apprendimento basato sulle policy nell’apprendimento per rinforzo, permettendo al modello di correggere autonomamente le proprie strategie di generazione in tempo reale.

L’aspetto più rivoluzionario di questa tecnica è la sua semplicità di implementazione a livello di infrastruttura. A differenza della decodifica speculativa, che richiede l’affiancamento di modelli ausiliari più piccoli, il metodo di auto-distillazione richiede solo una modifica minima alla matrice di incorporamento (embedding matrix). Inserendo un token speciale, denominato , negli spazi precedentemente non utilizzati della matrice, il modello può trasformare i propri calcoli da puramente sequenziali a paralleli. Questa modifica lascia intatte le strutture fondamentali come i livelli di Mixture of Experts (MoE) o i meccanismi di attenzione, rendendo la tecnica compatibile con una vasta gamma di modelli esistenti senza necessità di riprogettazioni hardware o software complesse.

Per bilanciare l’incremento di velocità con la precisione del risultato, il team ha introdotto una strategia di decodifica adattiva chiamata ConfAdapt. Questo sistema imposta una soglia di confidenza, tipicamente fissata al 90%, per valutare la validità statistica del pacchetto di token previsto. Se il modello esprime un’alta confidenza nella previsione del blocco, questo viene accettato istantaneamente, accelerando la generazione. Qualora la confidenza scenda sotto la soglia, il sistema effettua un “fall-back” automatico verso la predizione tradizionale a token singolo, garantendo la massima accuratezza nei passaggi logici più complessi o ambigui. Questo approccio dinamico assicura che il risparmio di tempo avvenga nelle parti di testo più strutturate e prevedibili, preservando la qualità dove il ragionamento richiede maggiore dettaglio.

I test sperimentali condotti su modelli come Llama-3.1-8B-Magpie hanno confermato l’efficacia della tecnica, registrando velocità di inferenza tre volte superiori con una perdita di accuratezza minima, inferiore al 3% in compiti matematici complessi. È emerso inoltre che l’effetto di accelerazione è persistente anche in ambiti non direttamente coinvolti nell’addestramento multi-token, come la scrittura creativa e il riepilogo di testi, indicando una capacità di generalizzazione superiore delle euristiche apprese. Ottimizzando l’utilizzo della GPU per le singole richieste degli utenti, questa tecnologia promette di abbattere drasticamente i tempi di risposta percepiti, rendendo l’interazione con gli assistenti digitali e gli agenti autonomi molto più fluida e naturale.

Di Fantasy