Zhipu AI (ora Z.ai) sorprende con il lancio di GLM‑4.5V, una generazione avanzata di modello linguistico‑visivo (VLM) rilasciata come open‑source. Dietro a questo nome si cela un progetto ambizioso, concepito per superare i confini della percezione visiva e raggiungere livelli inediti di ragionamento spaziale, contestuale e multiforme.
GLM‑4.5V nasce sulla base di GLM‑4.5‑Air, una versione compatta del modello linguistico di Zhipu AI. Con 106 miliardi di parametri totali e 12 miliardi attivi, questa architettura MoE (Mixture-of-Experts) è progettata per offrire potenza computazionale bilanciata e ottimale, perfetta anche per GPU di fascia media.
Il modello eccelle nella comprensione di scene complesse, nell’analisi di immagini multiple simultaneamente e nel riconoscimento spaziale: perfetto per identificare difetti nei prodotti, estrarre contesto geografico o orchestrare inferenze tra più immagini.
È capace persino di segmentare video estesi e riconoscere eventi con l’ausilio di un encoder visivo basato su convoluzione 3D e 3D‑RoPE, una codifica posizionale rotazionale in tre dimensioni, tecnica all’avanguardia per dare senso ai movimenti nello spazio.
L’ambito di applicazione è vastissimo: dalle interfacce desktop ad app mobili, pulsanti, icone e strumenti RPA (Robotic Process Automation). Perfino grafici, diagrammi e presentazioni vengono decodificati con accuratezza, permettendo estrazione di dati strutturati da PDF o slide PowerPoint.
Una novità cruciale è la modalità “Thinking Mode”, che consente di scegliere tra inferenza veloce (OFF) o analisi dettagliata e passo per passo (ON), ottimizzata per task logici o ragionamenti mulstep. Inoltre, può processare contesti multimodali estremamente lunghi, fino a 64.000 token, ideale per documenti ricchi di immagini o richieste complesse
Nel panorama delle valutazioni pubbliche, GLM‑4.5V stabilisce nuovi record: risultati allo stato dell’arte su ben 41 benchmark multimodali, tra cui MMBench, AI2D, MMStar e MathVista. In particolare, supera modelli come Qone 2.5 VL, Kimi VL e Gemma 3 nei task STEM, nella comprensione di grafici, nell’interazione con GUI e nella visione complessa.
GLM‑4.5V e il suo codice sono disponibili liberamente su Hugging Face, GitHub e ModelScope, sotto licenza MIT. Ciò permette uso commerciale senza restrizioni e libera sperimentazione da parte della comunità.