Immagine AI

Z.ai, società precedentemente nota come Zhipu AI, ha rilasciato GLM-5.2, un modello open-weight progettato per attività di coding, analisi di repository estesi e workflow agentici di lunga durata. Il rilascio è arrivato in una fase in cui molti sviluppatori hanno dovuto sostituire o affiancare strumenti basati su Anthropic Fable 5, dopo la sospensione dell’accesso imposta da una direttiva statunitense di export control che ha coinvolto tutti gli utenti, inclusi quelli negli Stati Uniti. Anthropic ha precisato che la misura riguarda Fable 5 e Mythos 5, mentre gli altri modelli restano disponibili.

GLM-5.2 si colloca nella famiglia GLM-5 e adotta un’architettura Mixture-of-Experts da 744 miliardi di parametri complessivi, con circa 40 miliardi di parametri attivi per token. Il modello è stato ottimizzato per mantenere il ragionamento e l’uso degli strumenti per sequenze di lavoro lunghe, nelle quali l’agente deve esplorare una codebase, formulare ipotesi, eseguire comandi, leggere gli output, correggere la strategia e continuare fino al completamento del task.

Uno degli elementi centrali è la finestra di contesto da 1 milione di token. In pratica, il modello può ricevere una quantità di codice, documentazione, log, configurazioni e istruzioni molto superiore a quella gestibile dai normali assistenti di sviluppo. Questo è utile soprattutto per repository monolitici, sistemi con molti servizi collegati, refactoring trasversali, migrazioni API, analisi di dipendenze e debugging di errori che coinvolgono file lontani tra loro.

Per ridurre il costo computazionale del contesto lungo, Z.ai ha introdotto IndexShare, una tecnica che riutilizza lo stesso indexer su gruppi di quattro layer di sparse attention. Secondo la documentazione del progetto, questa scelta riduce di circa 2,9 volte i FLOPs per token quando il modello lavora su contesti da 1 milione di token. GLM-5.2 include inoltre un aggiornamento del layer MTP, Multi-Token Prediction, impiegato per la speculative decoding: il sistema tenta di generare più token candidati in anticipo e ne verifica poi l’accettazione da parte del modello principale. Z.ai indica un incremento fino al 20% nella lunghezza media dei token accettati, con l’obiettivo di aumentare la velocità di inferenza.

Il modello mette a disposizione due livelli principali di ragionamento, High e Max. Il parametro reasoning_effort permette di scegliere il compromesso tra tempo di elaborazione, latenza e accuratezza: la modalità Max è quella predefinita per compiti complessi e benchmark, mentre High può essere usata quando serve ridurre il tempo di risposta. È possibile anche disabilitare completamente il ragionamento esplicito, mantenendo il modello in una modalità più diretta per task meno complessi.

Nei benchmark dichiarati da Z.ai, GLM-5.2 raggiunge l’81,0% su Terminal-Bench 2.1, rispetto al 62,0% ottenuto dalla precedente GLM-5.1, e il 62,1% su SWE-bench Pro, contro il 58,4% della versione precedente. Terminal-Bench misura la capacità di completare attività reali tramite terminale, eseguendo comandi e interagendo con un ambiente software; SWE-bench Pro valuta la capacità di risolvere issue concrete in repository reali attraverso modifiche verificabili al codice. Z.ai confronta il risultato di Terminal-Bench 2.1 con l’85,0% di Claude Opus 4.8, sostenendo che GLM-5.2 si avvicini ai modelli closed-weight di fascia più alta pur restando distribuibile localmente.

L’apertura dei pesi è uno degli aspetti che ha reso il modello particolarmente interessante per gli sviluppatori. GLM-5.2 può essere scaricato in BF16 o FP8 e distribuito con framework quali SGLang, vLLM, Transformers, KTransformers e Unsloth. Sono supportati anche ambienti Ascend NPU tramite vLLM-Ascend, xLLM e SGLang. Questo consente a team tecnici e aziende di eseguire il modello all’interno della propria infrastruttura, mantenendo codice sorgente, dati aziendali, log e richieste di sviluppo in ambienti controllati anziché inviarli a un servizio cloud esterno.

Il modello non è però leggero: la configurazione completa da 744B parametri richiede infrastrutture importanti, soprattutto in BF16. La versione FP8 riduce il fabbisogno di memoria e rende più praticabile l’inferenza su cluster GPU o sistemi specializzati, ma non trasforma GLM-5.2 in un modello eseguibile su un normale computer desktop. Il vantaggio operativo dell’open-weight, in questo caso, riguarda soprattutto il controllo sulla distribuzione, la possibilità di utilizzare provider alternativi, il fine-tuning e l’integrazione in piattaforme interne di coding agentico.

La sospensione di Fable 5 ha reso ancora più visibile questa alternativa. Anthropic ha dichiarato di avere ricevuto una direttiva governativa che imponeva il blocco dell’accesso a Fable 5 e Mythos 5 per motivi di sicurezza nazionale, collegati a un possibile jailbreak mirato alle capacità cyber del modello. La società ha affermato che il problema segnalato riguardava vulnerabilità già note e relativamente semplici, ma ha comunque disabilitato i modelli per conformarsi all’ordine. Per chi utilizzava Fable come motore di coding o orchestrazione agentica, GLM-5.2 è diventato quindi uno dei candidati più immediati da testare, anche perché può essere inserito in molti workflow compatibili con API e strumenti già usati per modelli Anthropic.

La combinazione tra contesto da 1 milione di token, architettura MoE, ragionamento configurabile, ottimizzazioni per l’inferenza e disponibilità dei pesi rende GLM-5.2 un modello pensato non soltanto per generare snippet di codice, ma per sostenere processi completi di ingegneria software. L’obiettivo è permettere a un agente di restare operativo durante task lunghi, leggere repository complessi, usare strumenti esterni e mantenere una strategia coerente attraverso molte iterazioni, senza dipendere necessariamente

Di Fantasy