Un team di ricercatori ha presentato LLaVA-OneVision, un nuovo modello multimodale (LMM) open source di grandi dimensioni. Questo modello mostra capacità senza precedenti in attività come la comprensione di immagini singole, immagini multiple e video, rivaleggiando con modelli commerciali avanzati come GPT-4V.

LLaVA-OneVision eccelle in diverse aree, tra cui:

  • Interpretazione di grafici e diagrammi
  • Ragionamento visivo
  • Comprensione delle immagini del mondo reale

Il modello ha raggiunto prestazioni all’avanguardia su vari benchmark e ha dimostrato capacità emergenti attraverso il trasferimento di attività, adattandosi e eccellendo in diversi contesti. È stato sviluppato utilizzando un approccio di apprendimento curriculare, addestrandolo in fasi per gestire compiti sempre più complessi e utilizzando un’ampia raccolta di set di dati di alta qualità.

L’architettura di LLaVA-OneVision si basa su precedenti modelli LLaVA, con miglioramenti nelle rappresentazioni visive e nelle strategie di addestramento. I componenti principali includono il modello linguistico Qwen-2 e il codificatore di visione SigLIP.

Questa innovazione ha importanti implicazioni per lo sviluppo di assistenti AI generici, capaci di comprendere e ragionare sulle informazioni visive in varie modalità. Il team di ricerca ha reso open source il modello, il codice e i set di dati per promuovere ulteriori progressi nel campo.

LLaVA-OneVision rappresenta un significativo passo avanti verso sistemi multimodali più versatili e capaci di interagire con le informazioni visive in modi sempre più sofisticati.

Di Fantasy