Immagine AI

Il settore dell’intelligenza artificiale ha recentemente assistito a un punto di svolta tecnologico con il rilascio di GLM-5 da parte di Z.AI (Jifu AI). Questo modello non rappresenta solo un incremento incrementale della potenza di calcolo, ma introduce un’architettura radicalmente ottimizzata che abbatte il costo dell’inferenza mantenendo prestazioni di frontiera. Il successo di questa iterazione si fonda su due pilastri ingegneristici principali: l’infrastruttura di apprendimento per rinforzo (RL) asincrona denominata “Slime” e l’integrazione della tecnica DeepSeek Sparse Attention (DSA), combinazione che permette di gestire una scala di parametri senza precedenti con un’efficienza economica dirompente.

GLM-5 segna un’espansione monumentale rispetto alla serie precedente, portando il numero totale di parametri da 355 miliardi a ben 744 miliardi. Nonostante questa crescita dimensionale, l’efficienza operativa è garantita dall’architettura Mixture of Experts (MoE), che permette di attivare solo una frazione del modello per ogni singolo token elaborato. Nello specifico, la densità di calcolo è stata portata a 40 miliardi di parametri attivi per token, rispetto ai 32 miliardi del modello precedente. Questa strategia consente a GLM-5 di scalare l’intelligenza senza subire il peso computazionale di un’architettura densa tradizionale. I dati dell’Intelligence Index di Artificial Analysis confermano l’efficacia di questa scelta: il modello si è posizionato al terzo posto mondiale, riducendo drasticamente il tasso di allucinazione dal 90% a un ben più solido 34%.

Il vero cuore dell’innovazione nel processo di addestramento è rappresentato da Slime, un framework di apprendimento per rinforzo asincrono progettato per eliminare i colli di bottiglia dei sistemi convenzionali. Nei modelli RL sincroni, la generazione dei dati e l’aggiornamento del modello avvengono in sequenza; se un’attività subisce un ritardo, l’intero processo si blocca. Slime scardina questa logica separando i moduli di generazione, buffer e apprendimento. In questa configurazione, più agenti indipendenti generano traiettorie di dati simultaneamente e le inviano a un modulo buffer, dal quale il cervello del sistema (basato su Megatron-LM) attinge in modo continuo per aggiornare i pesi del modello senza tempi morti.

A completare questa infrastruttura interviene la tecnica APRIL (Active Partial Rollouts). Questo meccanismo di ottimizzazione monitora la qualità dei dati sintetici durante le fasi di post-apprendimento: se il sistema rileva che una traiettoria di ragionamento sta portando a un risultato errato, interrompe immediatamente l’operazione e la riavvia. Questo approccio ha ridotto i tempi di attesa dell’infrastruttura fino al 90%, accelerando il ciclo di sviluppo per task agentici complessi che richiedono iterazioni dettagliate e correzioni logiche immediate.

Per gestire le enormi finestre di contesto richieste dalle applicazioni moderne (fino a 200.000 parole), GLM-5 integra la tecnologia DeepSeek Sparse Attention (DSA). Il meccanismo di attenzione standard ha solitamente una complessità quadratica che rende proibitivi i costi dei server su documenti lunghi. La tecnica DSA risolve questa inefficienza concentrando la capacità di calcolo solo sui token più rilevanti per la query, invece di analizzare ogni singola parola con la stessa intensità. Attraverso una scansione rapida delle informazioni chiave, il modello riduce la complessità computazionale e i relativi costi energetici, permettendo una memorizzazione massiva di dati senza degradare la velocità di risposta.

L’integrazione di queste tecnologie ha permesso a Jifu AI di posizionare GLM-5 con un prezzo API rivoluzionario, circa sei volte inferiore per gli input e dieci volte per gli output rispetto ai principali concorrenti globali. Questa efficienza non è fine a se stessa, ma è progettata per abilitare operazioni di lungo termine con agenti autonomi, dove il modello deve pianificare, scrivere codice e risolvere problemi in autonomia per sessioni prolungate. Riducendo il costo per token e aumentando la precisione del ragionamento, GLM-5 si propone come lo standard per l’ingegneria di sistemi complessi, dimostrando che la via verso l’intelligenza artificiale generale passa per un’ottimizzazione radicale dell’infrastruttura di apprendimento.

Di Fantasy