Nel panorama in continua evoluzione dell’intelligenza artificiale, Nexa AI ha recentemente introdotto OmniVision-968M, un modello visivo-linguistico (VLM) che si distingue per le sue dimensioni ridotte e l’efficienza operativa. Questo avanzamento rappresenta un passo significativo verso l’implementazione di modelli AI multimodali su dispositivi edge, come wearable, dispositivi mobili e hardware IoT.

OmniVision-968M è un modello multimodale con 968 milioni di parametri, progettato per elaborare input sia testuali che visivi. Una delle innovazioni chiave di questo modello è la riduzione del numero di token immagine da 729 a 81, ottenuta attraverso l’ottimizzazione dell’architettura LLaVA. Questa riduzione di nove volte migliora significativamente l’efficienza, riducendo la latenza e i costi computazionali.

Inoltre, il modello è stato addestrato utilizzando la Direct Preference Optimization (DPO), una tecnica che sostituisce l’apprendimento per rinforzo con feedback umano (RLHF). La DPO utilizza direttamente i dati di preferenza per migliorare l’accuratezza del modello, affrontando efficacemente il problema delle “allucinazioni” spesso presenti nei modelli AI.

L’architettura di OmniVision-968M integra il modello open-source Qwen-2.5-0.5B-Instruct di Alibaba per l’elaborazione del testo e il vision encoder SigLIP-400M per la generazione di embedding delle immagini. Utilizzando un Multi-Layer Perceptron (MLP) come livello di proiezione, il modello allinea gli embedding visivi con lo spazio dei token del modello linguistico, consentendo una significativa riduzione del numero di token immagine.

Questa ottimizzazione consente a OmniVision-968M di operare con risorse computazionali limitate, rendendolo ideale per l’implementazione su dispositivi edge. In test pratici, il modello ha generato didascalie per immagini con risoluzione 1046×1568 in meno di due secondi su un MacBook Pro con chip M4, utilizzando solo 988 MB di RAM e 948 MB di spazio di archiviazione.

I benchmark hanno dimostrato che OmniVision-968M riduce i tempi di inferenza del 35% rispetto ai modelli precedenti, mantenendo o migliorando l’accuratezza in compiti come il visual question answering e la generazione di didascalie per immagini. Inoltre, il modello ha superato nanoLLAVA, precedentemente il più piccolo VLM disponibile, in tutte le metriche di performance.

Queste caratteristiche rendono OmniVision-968M particolarmente adatto per applicazioni in settori che richiedono interazioni rapide ed efficienti con risorse limitate, come la sanità, le smart city e l’automotive.

Nonostante i promettenti risultati, Nexa AI riconosce che OmniVision-968M è ancora in fase di ricerca iniziale. L’azienda prevede di affrontare le attuali limitazioni per sviluppare una soluzione pronta per la produzione. Attualmente, OmniVision-968M è disponibile sulla piattaforma Hugging Face, offrendo alla comunità di ricerca l’opportunità di esplorare e contribuire al suo sviluppo.

Di Fantasy