Immagine AI

La startup di intelligenza artificiale Zyphra ha presentato Zamba2-VL, una nuova famiglia open source di modelli Vision-Language (VLM) progettata per combinare capacità multimodali avanzate con un’elevata efficienza inferenziale. I modelli sono stati rilasciati nelle versioni da 1,2, 2,7 e 7 miliardi di parametri e rappresentano una delle prime implementazioni su larga scala di un’architettura visione-linguaggio costruita attorno a una struttura ibrida che integra i meccanismi State Space Model di Mamba2 con componenti Transformer tradizionali.

I VLM moderni elaborano simultaneamente testo e contenuti visivi per interpretare immagini, documenti, grafici, diagrammi e altri contenuti multimodali. La maggior parte delle soluzioni attualmente disponibili utilizza architetture Transformer complete, che offrono elevate capacità di ragionamento ma comportano costi computazionali crescenti all’aumentare della lunghezza del contesto e della quantità di token visivi da elaborare. Zamba2-VL affronta questo problema adottando una struttura che delega la maggior parte dell’elaborazione ai livelli Mamba2, mantenendo blocchi Transformer condivisi in punti specifici della rete per preservare le capacità di attenzione globale.

L’architettura segue un’impostazione simile ai moderni sistemi della famiglia LLaVA. Le informazioni visive vengono inizialmente elaborate da un encoder dedicato basato sul Vision Transformer utilizzato da Qwen2-VL. Questo componente supporta funzionalità come la gestione dinamica della risoluzione e l’utilizzo di embedding posizionali rotazionali bidimensionali. Le caratteristiche estratte vengono successivamente trasformate da un adattatore MLP a due livelli e proiettate nello spazio di embedding del modello linguistico, consentendo l’elaborazione congiunta di token visivi e testuali.

Il cuore dell’innovazione risiede nel modello linguistico Zamba2. Invece di affidarsi esclusivamente all’attenzione quadratica tipica dei Transformer, la rete utilizza prevalentemente livelli Mamba2 basati su State Space Models, capaci di elaborare sequenze lunghe con complessità sostanzialmente lineare. Per compensare le limitazioni che gli SSM mostrano tradizionalmente nella ricerca contestuale e nelle relazioni a lungo raggio, Zyphra ha inserito periodicamente blocchi Transformer condivisi tra più livelli della rete. Questa soluzione permette di mantenere capacità di ragionamento comparabili a quelle dei Transformer tradizionali riducendo al contempo il numero complessivo di parametri e il carico computazionale.

Secondo quanto dichiarato dall’azienda, l’intera famiglia Zamba2-VL è stata addestrata utilizzando circa 100 miliardi di token provenienti da dati multimodali e testuali raccolti da dataset pubblici. Il processo di training ha incluso una forte componente dedicata alla comprensione di documenti, OCR, grafici e contenuti strutturati, ambiti che rappresentano una parte crescente delle applicazioni aziendali basate su modelli multimodali.

Nei benchmark pubblicati, i modelli hanno mostrato risultati particolarmente interessanti nelle attività di conteggio visivo. La versione da 1,2 miliardi di parametri ha ottenuto prestazioni superiori a diversi modelli concorrenti della stessa categoria nel benchmark PixMoCount, mentre le versioni da 2,7 e 7 miliardi di parametri hanno registrato risultati competitivi nei test CountBenchQA dedicati al conteggio di oggetti e alla comprensione quantitativa delle immagini.

Anche le attività di comprensione documentale hanno evidenziato prestazioni elevate. Nei benchmark DocVQA dedicati all’analisi di documenti, il modello da 2,7 miliardi di parametri ha raggiunto risultati competitivi rispetto ad altri VLM open source più grandi. Analogamente, i test relativi all’estrazione di testo da immagini, alla comprensione di grafici e alle attività OCR hanno mostrato un buon equilibrio tra accuratezza e complessità computazionale.

L’aspetto che distingue maggiormente Zamba2-VL riguarda tuttavia l’efficienza inferenziale. Nei modelli Transformer tradizionali il costo computazionale cresce rapidamente all’aumentare della lunghezza del contesto, un problema particolarmente rilevante nei VLM dove immagini ad alta risoluzione possono generare migliaia di token visivi. Grazie all’utilizzo estensivo dei livelli Mamba2, il sistema mantiene invece una complessità molto più contenuta durante l’elaborazione di sequenze lunghe. Secondo i dati pubblicati da Zyphra, in contesti con input di circa 32.000 token il tempo necessario per generare il primo token risulta fino a dieci volte inferiore rispetto a modelli Transformer comparabili, mantenendo livelli di accuratezza simili.

Questa caratteristica rende particolarmente interessanti le versioni da 1,2 e 2,7 miliardi di parametri per applicazioni edge e on-device, dove memoria disponibile, consumo energetico e latenza rappresentano vincoli critici. Scenari come l’analisi di documenti PDF, l’elaborazione automatica di fatture e ricevute, il riconoscimento di inventari, l’ispezione industriale e le applicazioni multimodali eseguite direttamente su dispositivi locali potrebbero beneficiare significativamente della riduzione dei requisiti computazionali introdotta dall’architettura ibrida.

Con Zamba2-VL, Zyphra propone quindi un’alternativa ai tradizionali VLM basati esclusivamente su Transformer, dimostrando come la combinazione tra State Space Models e meccanismi di attenzione possa offrire un equilibrio interessante tra prestazioni multimodali, efficienza inferenziale e scalabilità verso contesti caratterizzati da risorse hardware limitate.

Di Fantasy