Ottimizzazione del calcolo Mixture-of-Experts e gestione del contesto esteso nell’architettura Xiaomi MiMo v2.5

L’evoluzione dei sistemi autonomi ha trovato un nuovo punto di riferimento tecnico nel rilascio della serie Xiaomi MiMo v2.5, una famiglia di modelli Mixture-of-Experts (MoE) progettata per ridefinire il rapporto tra densità computazionale e costi operativi. L’annuncio della disponibilità open-source sotto licenza MIT per i modelli MiMo v2.5 e v2.5 Pro segna una transizione cruciale: il passaggio da modelli ottimizzati per la conversazione a motori di ragionamento progettati specificamente per i cosiddetti “agentic claw tasks”, ovvero flussi di lavoro complessi e di lunga durata che richiedono l’interazione costante con strumenti esterni e la gestione di contesti massivi.

Il cuore tecnologico di MiMo-V2.5-Pro risiede nella sua imponente struttura da oltre un trilione di parametri complessivi, di cui solo 42 miliardi risultano attivi durante ogni singolo passaggio di inferenza. Questa configurazione a “esperti sparsi” permette al modello di mantenere una vastissima base di conoscenza e capacità logiche senza subire il degrado prestazionale o l’eccessivo carico energetico tipico dei modelli densi. L’efficienza è ulteriormente garantita dall’adozione di una “Hybrid Attention” avanzata, che implementa un rapporto di 7:1 tra Sliding Window e Global Attention. Questa soluzione tecnica riduce drasticamente l’occupazione della cache KV, fino a sette volte rispetto alle architetture standard, permettendo al sistema di mantenere la coerenza logica anche quando il contesto raggiunge la soglia operativa di un milione di token.

La specificità di questi modelli emerge chiaramente nelle prestazioni registrate sui benchmark della serie OpenClaw, in particolare nelle metriche PinchBench e ClawEval. MiMo-V2.5-Pro è stato addestrato non solo per rispondere a prompt testuali, ma per operare come orchestratore di workflow produttivi. In test di “long-horizon”, il modello ha dimostrato la capacità di generare autonomamente applicazioni complesse, come un editor video desktop da oltre ottomila linee di codice attraverso più di 1.800 chiamate a strumenti (tool calls) in un arco temporale di 11 ore di lavoro continuo. La stabilità del tool-calling è supportata da un layer di Multi-Token Prediction (MTP) a tre livelli, che accelera la generazione dei token critici per l’interazione con le API esterne, garantendo che le catene di ragionamento non si interrompano durante compiti di ingegneria del software su larga scala.

Oltre alle specifiche tecniche, il vantaggio strutturale di Xiaomi risiede nell’efficienza dei token. Le analisi comparative indicano che MiMo-V2.5-Pro richiede tra il quaranta e il sessanta per cento di token in meno rispetto a modelli concorrenti per completare task di pari complessità. Questa efficienza si traduce in una strategia di prezzo aggressiva, con costi di input fissati a 1 dollaro per milione di token, circa un quinto rispetto ai modelli di frontiera proprietari. Per mitigare ulteriormente i costi nei task di ultra-lungo contesto, Xiaomi ha introdotto sistemi di gestione della cache che riducono i costi di input fino a 0,20 dollari in caso di “cache hit”, rendendo economicamente sostenibile lo sviluppo di agenti IA persistenti che devono analizzare interi codebase o archivi documentali in un’unica sessione operativa.

Il rilascio è accompagnato dal programma “Orbit”, che mira a consolidare un ecosistema di sviluppatori attraverso l’erogazione di incentivi in token e il supporto nativo per infrastrutture cloud avanzate, inclusa l’ottimizzazione per i chip Trainium 2 di AWS. Questa mossa non solo posiziona Xiaomi come un attore di rilievo nel settore open-source, ma stabilisce un nuovo standard di accessibilità per le tecnologie agentiche di classe enterprise, dimostrando come l’efficienza architetturale possa abbattere le barriere d’ingresso per l’automazione avanzata.

Ottimizzazione del calcolo Mixture-of-Experts e gestione del contesto esteso nell’architettura Xiaomi MiMo v2.5

DiFantasy

Di Fantasy

Articoli correlati

Google ridisegna la barra di ricerca per la prima volta in 25 anni: query conversazionali, agenti informativi e interfacce generate in tempo reale

Google Gemini Omni punta a unificare video, audio, immagini e testo in un unico modello multimodale

Google amplia Gemini con agenti AI capaci di gestire email, monitorare inbox e automatizzare attività personali

Ultimi Post

Google ridisegna la barra di ricerca per la prima volta in 25 anni: query conversazionali, agenti informativi e interfacce generate in tempo reale

Google Gemini Omni punta a unificare video, audio, immagini e testo in un unico modello multimodale

Google amplia Gemini con agenti AI capaci di gestire email, monitorare inbox e automatizzare attività personali

Gemini 3.5 Flash: Google rompe il trade-off tra capacità e costo nei workflow agentici enterprise