Un team di ricercatori ha presentato LLaVA-OneVision, un nuovo modello multimodale (LMM) open source di grandi dimensioni. Questo modello mostra capacità senza precedenti in attività come la comprensione di immagini singole, immagini multiple e video, rivaleggiando con modelli commerciali avanzati come GPT-4V.
LLaVA-OneVision eccelle in diverse aree, tra cui:
- Interpretazione di grafici e diagrammi
- Ragionamento visivo
- Comprensione delle immagini del mondo reale
Il modello ha raggiunto prestazioni all’avanguardia su vari benchmark e ha dimostrato capacità emergenti attraverso il trasferimento di attività, adattandosi e eccellendo in diversi contesti. È stato sviluppato utilizzando un approccio di apprendimento curriculare, addestrandolo in fasi per gestire compiti sempre più complessi e utilizzando un’ampia raccolta di set di dati di alta qualità.
L’architettura di LLaVA-OneVision si basa su precedenti modelli LLaVA, con miglioramenti nelle rappresentazioni visive e nelle strategie di addestramento. I componenti principali includono il modello linguistico Qwen-2 e il codificatore di visione SigLIP.
Questa innovazione ha importanti implicazioni per lo sviluppo di assistenti AI generici, capaci di comprendere e ragionare sulle informazioni visive in varie modalità. Il team di ricerca ha reso open source il modello, il codice e i set di dati per promuovere ulteriori progressi nel campo.
LLaVA-OneVision rappresenta un significativo passo avanti verso sistemi multimodali più versatili e capaci di interagire con le informazioni visive in modi sempre più sofisticati.