Immagine AI

DeepSeek ha pubblicato in open source D-Spark, un framework di speculative decoding progettato per aumentare la velocità di generazione dei grandi modelli linguistici senza modificare il modello principale né alterarne la qualità di output. La tecnologia interviene nella fase di inferenza, cioè nel momento in cui il modello produce token dopo token una risposta, un’operazione che diventa particolarmente costosa quando milioni di richieste vengono elaborate in parallelo su infrastrutture GPU.

Il principio alla base dello speculative decoding consiste nell’affiancare al modello principale un modello più leggero, chiamato drafter. Questo componente genera in anticipo una sequenza di possibili token, mentre il modello target più grande li verifica in un’unica operazione. I token compatibili con la distribuzione prodotta dal modello principale vengono accettati, quelli non validi vengono scartati e la generazione prosegue dal punto corretto. In questo modo il sistema può avanzare di più token per ogni passaggio del modello principale, evitando di eseguire la stessa quantità di calcoli autoregressivi richiesta dalla generazione tradizionale.

D-Spark cerca di migliorare contemporaneamente i tre elementi che determinano l’efficacia di questo processo: il tempo necessario a produrre la bozza, il numero di token che riescono a superare la verifica e il costo computazionale della fase di validazione. Il framework usa una struttura semi-autoregressiva. Una prima componente genera più token in parallelo, quindi un modulo sequenziale leggero ricalibra le probabilità dei token prodotti considerando le informazioni precedenti nella sequenza.

Questa architettura affronta un limite dei drafter completamente paralleli. Generare molti token contemporaneamente aumenta la velocità, ma può ridurre la coerenza tra le posizioni più lontane della sequenza, con una diminuzione del tasso di accettazione durante la verifica. Al contrario, un modello autoregressivo che calcola ogni token in funzione di quelli precedenti preserva meglio il contesto, ma perde parte del vantaggio prestazionale. D-Spark combina i due approcci: sfrutta la generazione parallela iniziale e aggiunge un passaggio leggero di dipendenza sequenziale per rendere più affidabile la previsione dei token successivi.

La versione di base adotta un Markov head, cioè un modulo che utilizza soprattutto l’informazione proveniente dal token immediatamente precedente per correggere la distribuzione delle probabilità. L’obiettivo è mantenere un costo molto contenuto. DeepSeek ha sperimentato anche un head basato su RNN, capace di incorporare una parte più ampia della sequenza precedente, ma i miglioramenti non sono risultati sufficienti a giustificare l’aumento di complessità nella configurazione standard.

Un secondo elemento centrale è il meccanismo di Confidence-Scheduled Verification. Il sistema non tratta tutti i token proposti dal drafter nello stesso modo: stima la probabilità che ciascuno venga effettivamente accettato dal modello target, calibra questa stima e usa il risultato per decidere quanti token verificare in ogni ciclo. Quando le GPU sono poco occupate, il framework può aumentare la lunghezza della verifica e sfruttare una maggiore capacità di calcolo. Quando il carico cresce, riduce invece il numero di token controllati, cercando di mantenere elevata l’efficienza del servizio senza introdurre code o rallentamenti eccessivi.

La calibrazione della confidenza è importante perché una stima errata può rendere inefficiente l’intero processo. Se il sistema prevede che molti token saranno accettati ma il modello principale li respinge, la fase di generazione anticipata aggiunge lavoro senza produrre un guadagno reale. D-Spark riduce questo margine di errore con una procedura di correzione della confidenza e abbina la previsione a uno scheduler che tiene conto dello stato delle risorse GPU. La speculative decoding diventa quindi una tecnologia non soltanto algoritmica, ma direttamente collegata alla gestione dinamica della capacità di inferenza.

Durante l’addestramento il modello target resta congelato. Vengono ottimizzati soltanto il drafter, il modulo sequenziale e l’head di confidenza. Il training punta a ridurre la distanza tra la distribuzione prodotta dal modello leggero e quella del modello principale, così da aumentare la probabilità che i token generati in anticipo vengano accettati. Questo consente di aggiungere l’accelerazione a un modello già addestrato senza dover ripetere il costoso processo di training dell’intero LLM.

Nei test offline, D-Spark è stato valutato su modelli Qwen3 da 4, 8 e 14 miliardi di parametri e su Gemma 4 da 12 miliardi, utilizzando benchmark di matematica, coding, conversazione e ragionamento. Il framework ha registrato un numero medio di token accettati superiore rispetto alle implementazioni Eagle3 e DFlash. L’aumento dei token verificati con successo è rilevante perché rappresenta direttamente il fattore che permette di ridurre il numero di passaggi eseguiti dal modello principale.

DeepSeek ha inoltre mostrato che l’estensione della sequenza proposta dal drafter non comporta necessariamente un aumento proporzionale della latenza. Nei test indicati, portare la lunghezza della bozza da quattro a sedici token ha prodotto un incremento molto limitato del tempo di elaborazione, mentre il numero di token accettati è cresciuto in modo più consistente. È un risultato utile per i servizi di inferenza, perché consente di aumentare il throughput senza intervenire sulla dimensione del modello target o sulla qualità della risposta.

L’implementazione destinata alla produzione utilizza una configurazione che genera fino a cinque token anticipati. Applicata alle varianti DeepSeek-V4 Flash e DeepSeek-V4 Pro, D-Spark avrebbe aumentato la velocità di generazione per utente, a parità di throughput complessivo, rispettivamente fino all’85% e al 78% rispetto alla precedente impostazione MTP-1. Il dato non indica che il modello ragioni meglio o produca contenuti differenti: descrive un miglioramento della capacità di servire richieste simultanee e ridurre il tempo necessario per visualizzare la risposta.

Insieme a D-Spark è stato reso disponibile DeepSpec, un ambiente completo per addestrare e valutare modelli drafter destinati allo speculative decoding. Il repository include strumenti per preparare i dati, rigenerare le risposte del modello target, costruire una cache delle uscite, addestrare il modello leggero ed eseguire valutazioni su benchmark come GSM8K, HumanEval, MBPP, LiveCodeBench, MT-Bench e Arena-Hard. Le configurazioni predefinite sono pensate per un singolo nodo con otto GPU e richiedono una quantità significativa di storage: per alcune impostazioni, la sola cache dei risultati del modello target può arrivare a decine di terabyte.

D-Spark mostra come il miglioramento delle prestazioni dei modelli linguistici non dipenda soltanto da architetture più grandi o da nuove fasi di addestramento. Una parte crescente dell’innovazione riguarda l’infrastruttura di inferenza: modelli ausiliari più piccoli, verifiche parallele, schedulazione delle GPU e sistemi in grado di adattare l’elaborazione al carico reale. In questo contesto, aumentare il numero di token prodotti per ogni passaggio del modello principale può diventare uno dei modi più efficaci per ridurre costi e latenza senza sacrificare il comportamento del modello già disponibile.

Di Fantasy