GLM-4.5V: il modello multimodale open-source che ridefinisce visione, ragionamento e interazione visiva

DiFantasy

Ago 13, 2025

Zhipu AI (ora Z.ai) sorprende con il lancio di GLM‑4.5V, una generazione avanzata di modello linguistico‑visivo (VLM) rilasciata come open‑source. Dietro a questo nome si cela un progetto ambizioso, concepito per superare i confini della percezione visiva e raggiungere livelli inediti di ragionamento spaziale, contestuale e multiforme.

GLM‑4.5V nasce sulla base di GLM‑4.5‑Air, una versione compatta del modello linguistico di Zhipu AI. Con 106 miliardi di parametri totali e 12 miliardi attivi, questa architettura MoE (Mixture-of-Experts) è progettata per offrire potenza computazionale bilanciata e ottimale, perfetta anche per GPU di fascia media.

Il modello eccelle nella comprensione di scene complesse, nell’analisi di immagini multiple simultaneamente e nel riconoscimento spaziale: perfetto per identificare difetti nei prodotti, estrarre contesto geografico o orchestrare inferenze tra più immagini.

È capace persino di segmentare video estesi e riconoscere eventi con l’ausilio di un encoder visivo basato su convoluzione 3D e 3D‑RoPE, una codifica posizionale rotazionale in tre dimensioni, tecnica all’avanguardia per dare senso ai movimenti nello spazio.

L’ambito di applicazione è vastissimo: dalle interfacce desktop ad app mobili, pulsanti, icone e strumenti RPA (Robotic Process Automation). Perfino grafici, diagrammi e presentazioni vengono decodificati con accuratezza, permettendo estrazione di dati strutturati da PDF o slide PowerPoint.

Una novità cruciale è la modalità “Thinking Mode”, che consente di scegliere tra inferenza veloce (OFF) o analisi dettagliata e passo per passo (ON), ottimizzata per task logici o ragionamenti mulstep. Inoltre, può processare contesti multimodali estremamente lunghi, fino a 64.000 token, ideale per documenti ricchi di immagini o richieste complesse

Nel panorama delle valutazioni pubbliche, GLM‑4.5V stabilisce nuovi record: risultati allo stato dell’arte su ben 41 benchmark multimodali, tra cui MMBench, AI2D, MMStar e MathVista. In particolare, supera modelli come Qone 2.5 VL, Kimi VL e Gemma 3 nei task STEM, nella comprensione di grafici, nell’interazione con GUI e nella visione complessa.

GLM‑4.5V e il suo codice sono disponibili liberamente su Hugging Face, GitHub e ModelScope, sotto licenza MIT. Ciò permette uso commerciale senza restrizioni e libera sperimentazione da parte della comunità.

GLM-4.5V: il modello multimodale open-source che ridefinisce visione, ragionamento e interazione visiva

DiFantasy

Di Fantasy

Articoli correlati

Come Mercedes AMG Petronas sfrutta l’AI e la realtà aumentata per vincere in Formula 1

La pubblicità di Valentino con la modella creata dall’ AI fa discutere tanto da essere definita inquietante

L’Intelligenza Artificiale e la Blockchain rinnovano l’album delle figurine Panini

Ultimi Post

Come Mercedes AMG Petronas sfrutta l’AI e la realtà aumentata per vincere in Formula 1

La pubblicità di Valentino con la modella creata dall’ AI fa discutere tanto da essere definita inquietante

L’Intelligenza Artificiale e la Blockchain rinnovano l’album delle figurine Panini

L’Intelligenza Artificiale sorpassa TikTok: ChatGPT è il nuovo leader tra i giovani italiani