Immagine AI

L’organizzazione di ricerca AI Nous Research ha introdotto una nuova tecnica di addestramento denominata “Token Superposition Training” (TST), progettata per aumentare drasticamente l’efficienza del pretraining dei modelli linguistici senza modificare architettura, tokenizer, ottimizzatori o pipeline hardware esistenti. Il sistema punta direttamente a uno dei problemi più critici dello sviluppo degli LLM moderni: il costo computazionale crescente necessario per addestrare modelli su trilioni di token.

L’approccio TST si basa sull’idea di elaborare più token simultaneamente durante le prime fasi del training invece di processarli uno alla volta secondo il classico schema autoregressivo. Nei transformer tradizionali il modello apprende prevedendo il token successivo in sequenza, mentre TST introduce una fase iniziale di “superposition”, nella quale gruppi multipli di token vengono compressi e trattati come un’unica unità di apprendimento. Questo permette di aumentare significativamente la quantità di testo elaborata con le stesse risorse computazionali disponibili.

La tecnica è stata progettata come soluzione “drop-in”, cioè immediatamente integrabile nelle pipeline di training già esistenti senza richiedere modifiche strutturali ai modelli. Secondo i ricercatori, TST non altera né la struttura transformer né i sistemi di parallelizzazione o distribuzione del training, aspetto particolarmente rilevante per i laboratori AI che utilizzano infrastrutture GPU già ottimizzate per workflow standardizzati.

Il processo di apprendimento avviene in due fasi distinte. Durante la prima fase di superposition, il modello apprende da rappresentazioni token compresse e aggregate, aumentando il throughput dei dati processati. Successivamente entra in una fase di “recovery”, nella quale il training torna alla previsione classica token-by-token per rifinire precisione linguistica e qualità inferenziale. In pratica, il modello acquisisce inizialmente una comprensione più ampia e veloce del dataset, per poi eseguire una rifinitura dettagliata attraverso il normale apprendimento autoregressivo.

Per mantenere invariato il carico computazionale totale, il sistema regola dinamicamente la lunghezza dell’input in modo che il numero complessivo di FLOPs rimanga comparabile ai metodi standard. L’output del modello non prevede più un singolo token futuro, ma interi gruppi di token successivi elaborati simultaneamente. Per supportare questo schema, Nous Research ha implementato una tecnica chiamata “Multi-Hot Cross Entropy”, che consente di utilizzare le pipeline di training esistenti senza introdurre hardware specializzato o nuovi moduli architetturali.

I test sono stati eseguiti su modelli da 270 milioni, 600 milioni, 3 miliardi e 10 miliardi di parametri, inclusa una configurazione Mixture-of-Experts 10B-A1B. Nei benchmark più avanzati, il sistema ha mostrato una velocità di pretraining fino a circa 2,5 volte superiore rispetto ai metodi convenzionali. In uno degli esperimenti principali, il modello TST ha richiesto circa 4768 GPU-hours contro oltre 12 mila GPU-hours del training tradizionale, ottenendo contemporaneamente valori di loss inferiori.

I miglioramenti non hanno riguardato esclusivamente la velocità. Nei benchmark linguistici come ARC-Challenge, HellaSwag e MMLU, i modelli addestrati con TST hanno ottenuto prestazioni superiori rispetto alle baseline equivalenti a parità di FLOPs. Questo suggerisce che il metodo non si limita a comprimere il training, ma potrebbe anche introdurre effetti positivi sulla qualità delle rappresentazioni linguistiche apprese dal modello.

Secondo i ricercatori, una possibile spiegazione riguarda la stabilizzazione dello spazio embeddings durante la fase iniziale di apprendimento. L’uso di rappresentazioni token aggregate potrebbe infatti aiutare il modello a costruire strutture semantiche più robuste prima della fase di raffinamento dettagliato. Nous Research ipotizza inoltre che TST funzioni in parte come una forma di “pre-pretraining”, cioè una fase preliminare che prepara il modello ad apprendere successivamente pattern linguistici più complessi con maggiore efficienza.

La tecnica presenta anche similitudini concettuali con il “Multi Token Prediction” (MTP), uno dei filoni emergenti nel training degli LLM moderni. Tuttavia, TST evita l’introduzione di moduli predittivi aggiuntivi e mantiene una struttura molto più semplice e leggera. Secondo i risultati pubblicati, questo approccio avrebbe mostrato maggiore stabilità anche nei modelli di dimensioni ridotte, dove altri sistemi multi-token avevano evidenziato degradazioni prestazionali.

Nous Research sottolinea comunque che TST non è universalmente vantaggioso in qualsiasi scenario. Nei test basati sul consumo identico di dati, i metodi tradizionali mantengono ancora vantaggi qualitativi, poiché TST privilegia la quantità di testo processato rispetto alla quantità di calcolo dedicata a ogni singolo token. Questo introduce un compromesso tra throughput e granularità computazionale che potrebbe rendere la tecnica particolarmente adatta ai contesti in cui il costo GPU rappresenta il principale collo di bottiglia operativo.

L’interesse verso questo tipo di ottimizzazioni sta crescendo rapidamente perché i costi di addestramento dei modelli frontier stanno aumentando a ritmi estremamente elevati. Anche miglioramenti marginali dell’efficienza possono tradursi in risparmi economici enormi per i laboratori AI che operano cluster con migliaia di GPU. In questo scenario, tecniche come TST potrebbero diventare parte integrante delle future pipeline di pretraining, soprattutto nei sistemi Mixture-of-Experts e nei modelli destinati all’addestramento su dataset sempre più grandi

Di Fantasy