Ant Group fa un passo audace annunciando il modello Ring-1T, definito come “il primo modello di ragionamento open-source con un trilione di parametri”. Questo traguardo non è solo numerico: dietro ci sono sfide tecniche particolari, in particolare legate al reinforcement learning (RL) applicato su modelli estremamente grandi e la squadra di ingegneri di Ant ha sviluppato innovazioni per superare proprio questi ostacoli.

La promessa di Ring-1T è di spingersi oltre la semplice generazione linguistica, verso capacità di ragionamento logico-matematico, generazione di codice, risoluzione di problemi scientifici e simili. Per farlo, Ant ha adottato un’architettura basata su mixture-of-experts (MoE) e ha dichiarato che, nonostante la complessità, il modello arriva a gestire fino a 128.000 token in ingresso.

Tuttavia, proprio l’enorme scala introduce dei veri colli di bottiglia nella fase di training tramite RL: aggiornamenti rumorosi, inefficienze hardware, routing dinamico complesso, latenza tra training e inferenza, tutti elementi che rischiano di ostacolare la buona riuscita di un modello che aspira a performance top.

Per rispondere a queste sfide, Ant ha sviluppato tre innovazioni tecniche interconnesse: IcePop, C3PO++ e ASystem. IcePop si occupa di “rimuovere aggiornamenti di gradiente rumorosi” stabilizzando il training senza penalizzare le prestazioni in inferenza. In particolare, quando si ha una MoE e un RL esteso a contesti molto lunghi (“long chain-of-thought”), le discrepanze nei calcoli di probabilità possono accumularsi per iterazioni, con effetto deprecativo. IcePop applica una sorta di “doppio mascheramento” (double-sided masking calibration) per contenere questa instabilità. C3PO++, invece, migliora la pipeline di generazione dei rollouts (cioè l’interazione del modello che genera esempi poi usati per l’aggiornamento): spezza il lavoro in parti, con un pool di inferenza che genera nuovi dati e un pool di training che raccoglie gli esiti per aggiornare il modello. Si definisce un “token budget” per ottimizzare l’uso delle GPU e evitare che rimangano inattive. Infine ASystem adotta un’architettura SingleController + SPMD (Single Program, Multiple Data) che permette operazioni asincrone — una scelta necessaria quando si opera su scala così grande per evitare che il sistema si blocchi o diventi inefficiente.

I risultati dei benchmark sono indicativi: Ring-1T è stato testato su varie prove matematiche, di ragionamento, coding, e si è classificato al secondo posto dietro il modello di punta di OpenAI (nel caso riportato, “GPT-5”) e davanti ad altri modelli open-weight testati. Per esempio, ha ottenuto un punteggio del 93,4% sulla leaderboard AIME 25, risultando secondo solo a GPT-5. Ant sottolinea come il dataset accuratamente sintetizzato abbia contribuito a dare a Ring-1T una base solida per applicazioni di programmazione, confermando che la generazione di codice era tra gli obiettivi chiave di progetto.

Dal punto di vista strategico, la release di Ring-1T segnala che le aziende cinesi — e Ant Group in particolare, affiliata al colosso Alibaba — stanno investendo con decisione per insidiare la leadership statunitense nell’IA. Con modelli come Ring-1T, Qwen3-Omni (multimodale) e altri, si delinea una corsa globale al dominio dell’AI che non si limita più alle dimensioni del modello ma alla qualità dell’ottimizzazione, della scalabilità, dell’efficienza del training.

Ci sono alcune riflessioni interessanti: in primo luogo, la natura open-source di Ring-1T apre potenzialmente scenari di utilizzo — anche se bisogna considerare che modelli a trilione di parametri richiedono risorse hardware notevoli. In secondo luogo, le innovazioni progettuali (IcePop, C3PO++, ASystem) mostrano che non è solo la dimensione del modello a fare la differenza: la gestione efficiente del training, la pipeline, la stabilità diventano fattori critici. In un contesto e-commerce, dove l’IA può servire per raccomandazioni, predizioni, automazione, uno strumento che gestisce meglio i processi di RL potrebbe alla lunga fare la differenza in termini di efficacia, costo, scalabilità.

Di Fantasy