Xiaomi ha presentato MiMo-V2.5-Pro-UltraSpeed, una nuova variante ad alte prestazioni del proprio modello MiMo progettata specificamente per accelerare l’inferenza dei grandi modelli linguistici. Secondo l’azienda, il sistema è in grado di superare i 1.000 token al secondo su un modello con una scala di circa un trilione di parametri utilizzando un’infrastruttura composta da otto GPU standard, senza ricorrere a processori AI specializzati o architetture hardware dedicate.
L’obiettivo del progetto non è migliorare le capacità di ragionamento o le prestazioni del modello rispetto a MiMo-V2.5-Pro, ma massimizzare la velocità di generazione. In un contesto in cui la velocità di inferenza sta diventando un fattore competitivo tanto importante quanto la qualità delle risposte, Xiaomi ha concentrato il lavoro sull’ottimizzazione congiunta del modello e dello stack di esecuzione, adottando una strategia che l’azienda definisce “Extreme Model-System Codesign”. L’approccio prevede la progettazione simultanea dell’architettura AI e dell’infrastruttura software che la esegue, trattando modello e sistema come un’unica piattaforma integrata.
Uno dei pilastri tecnici del progetto è l’utilizzo della quantizzazione FP4. I modelli di dimensioni trilionarie richiedono normalmente enormi quantità di memoria e larghezza di banda quando vengono eseguiti in FP16 o FP8. Xiaomi ha applicato una quantizzazione selettiva utilizzando il formato MXFP4 sulle componenti esperte della struttura Mixture-of-Experts (MoE), riducendo significativamente il volume dei dati trasferiti e il carico sulla memoria. Per limitare la perdita di accuratezza, il sistema utilizza tecniche di Quantization Aware Training, consentendo al modello quantizzato di mantenere prestazioni molto vicine a quelle della versione originale.
La seconda innovazione riguarda D-Flash, un nuovo sistema di speculative decoding sviluppato internamente. Nelle implementazioni tradizionali, un modello più piccolo genera una sequenza preliminare di token che viene successivamente verificata da un modello più grande. Sebbene efficace, questo approccio continua a essere limitato dal fatto che il modello di bozza deve comunque produrre i token in modo sequenziale. D-Flash elimina parte di questo vincolo introducendo una predizione parallela a blocchi. Invece di prevedere un token alla volta, il sistema genera simultaneamente più posizioni mascherate e le sottopone a verifica in batch da parte del modello principale.
Per ottimizzare ulteriormente il meccanismo, Xiaomi ha adattato D-Flash alla famiglia MiMo utilizzando tecniche di auto-distillazione e ottimizzazione Muon. Secondo i dati forniti dall’azienda, il sistema riesce a mantenere un elevato tasso di accettazione delle previsioni speculative, con una media di sei o sette token accettati direttamente su blocchi da otto token generati in parallelo. Questo consente di ridurre significativamente il numero di passaggi necessari durante la fase di decoding.
La terza componente fondamentale è TileRT, il sistema di runtime sviluppato per eliminare i colli di bottiglia che emergono quando la velocità di generazione raggiunge livelli superiori ai mille token al secondo. A queste velocità, il problema principale non è più il calcolo matematico delle reti neurali, ma l’overhead generato dalle chiamate ai kernel GPU e dalle sincronizzazioni tra processi. TileRT affronta il problema attraverso una struttura Persistent Engine Kernel che mantiene l’intera pipeline di inferenza residente sulla GPU, evitando il continuo avvio di nuovi kernel durante l’esecuzione.
L’architettura sfrutta inoltre tecniche di Warp Specialization per separare le attività di trasferimento dati, comunicazione e calcolo in gruppi distinti di thread. Questo approccio consente di massimizzare il parallelismo interno della GPU e di mantenere elevata l’occupazione delle risorse hardware anche durante operazioni particolarmente brevi, che normalmente soffrirebbero di inefficienze dovute alla sincronizzazione.
Secondo Xiaomi, nessuna di queste tecnologie sarebbe stata sufficiente singolarmente per raggiungere il traguardo dei 1.000 token al secondo. Il risultato deriva dalla combinazione simultanea della quantizzazione FP4, del decoding speculativo D-Flash e del runtime TileRT all’interno di un’unica strategia di co-ottimizzazione tra modello e sistema. Durante le dimostrazioni pubbliche il sistema ha raggiunto velocità prossime ai 1.200 token al secondo, un valore che lo colloca tra le implementazioni più rapide ottenute su infrastrutture GPU convenzionali.
MiMo-V2.5-Pro-UltraSpeed è attualmente disponibile in forma di API per un gruppo limitato di utenti. Xiaomi ha dichiarato che il costo di utilizzo è circa tre volte superiore rispetto alla versione standard MiMo-V2.5-Pro, ma che la velocità di generazione risulta circa dieci volte maggiore. L’azienda ha inoltre pubblicato su Hugging Face il checkpoint di MiMo-V2.5-Pro con supporto FP4 e D-Flash, mentre alcune componenti principali di TileRT sono state rese disponibili come open source attraverso GitHub, consentendo alla comunità di sviluppatori di analizzare e sperimentare le tecnologie utilizzate per raggiungere questi livelli di inferenza.
