In uno studio recente condotto da ricercatori di Meta, Ecole des Ponts ParisTech e Université Paris-Saclay, si propone di migliorare l’accuratezza e la velocità dei modelli LLM (Large Language Model) dell’intelligenza artificiale facendo loro prevedere più token contemporaneamente, un’idea che sfida la struttura tradizionale dei modelli linguistici autoregressivi, progettati per prevedere un token alla volta.

Questa nuova metodologia, chiamata previsione multi-token, offre vantaggi significativi in alcune aree, con velocità triplicate e prestazioni migliori nelle attività generative, anche se non è una soluzione universale per ogni tipo di modello e attività linguistica.

Nel metodo classico di addestramento degli LLM, noto come “previsione del token successivo”, il modello viene istruito a prevedere un token alla volta, un processo ripetuto su grandi corpora di testo per apprendere modelli generali che gli consentono di generare testo coerente.

Tuttavia, la previsione del token successivo ha dei limiti nell’acquisizione del linguaggio e del ragionamento a lungo termine, poiché il modello diventa troppo sensibile ai modelli locali concentrandosi solo su un token alla volta.

La previsione multi-token, invece, consente al modello di prevedere contemporaneamente diversi token futuri da ciascuna posizione nei corpora di formazione. Questo approccio non richiede tempo di addestramento aggiuntivo o sovraccarico di memoria ed è basato sull’architettura Transformer, utilizzando più teste di output indipendenti anziché un singolo output.

I risultati dello studio mostrano che la previsione multi-token migliora le prestazioni dei modelli, specialmente quelli di dimensioni maggiori, rendendo anche l’inferenza fino a tre volte più veloce in un’ampia gamma di dimensioni dei batch.

Anche se ci sono ancora margini di miglioramento e molteplici direzioni future di ricerca da considerare, questa nuova metodologia potrebbe essere estremamente utile per le applicazioni aziendali, consentendo un’inferenza più rapida e precisa con costi aggiuntivi minimi o nulli per attività generative come il completamento del codice.

Di Fantasy