Gli ultimi progressi nei grandi modelli di linguaggio visivo (LVLM) hanno dimostrato che l’espansione di questi framework porta a miglioramenti significativi nelle prestazioni in molte attività. Questi modelli, come MiniGPT e LLaMA, hanno integrato componenti visivi e codificatori di immagini, migliorando così le capacità di percezione visiva dei modelli di linguaggio. Questo aumento delle prestazioni può essere ulteriormente ottenuto aumentando le dimensioni del modello, il numero di parametri e la scala dei dati di addestramento.
Per esempio, modelli come InternVL hanno raggiunto 6 miliardi di parametri nel codificatore di immagini, mentre altri hanno raggiunto 13 miliardi di parametri nel backend dei LVLM, ottenendo risultati superiori in diverse attività. Alcuni hanno persino raggiunto oltre 80 miliardi di parametri. Tuttavia, questo scalamento aumenta notevolmente i costi di formazione e inferenza a causa del computo richiesto per ogni token.
L’articolo presenta MoE-LLaVA, un’architettura sparsa basata su Mixture of Experts (MoE) che affronta efficacemente il problema del degrado delle prestazioni nel learning multimodale sparse, mantenendo costi di formazione e inferenza coerenti. Questa architettura attiva solo gli esperti migliori durante l’implementazione, mantenendo inattivi quelli meno importanti.
Oltre ad integrare componenti visive e codificatori di immagini, i grandi modelli di linguaggio visivo aumentano le loro dimensioni per migliorare le prestazioni. Alcuni modelli, come MiniGPT-4 e InternVL, hanno adottato questo approccio. Questa scalabilità è spesso necessaria per migliorare le prestazioni del modello nei contesti reali, anche se comporta costi computazionali più elevati.
L’utilizzo di modelli sparsi basati su Mixture of Experts può essere vantaggioso per ridurre i costi computazionali mantenendo alte prestazioni. Tuttavia, addestrare direttamente modelli sparsi di linguaggio Large Vision è impegnativo. MoE-LLaVA affronta questa sfida con una strategia di formazione in tre fasi.
Nella prima fase, i token visivi vengono adattati a un modello linguistico di grandi dimensioni. Nella seconda fase, il modello viene adattato a istruzioni multimodali per migliorare le sue capacità. Infine, nella terza fase, gli esperti sono inizializzati e addestrati per migliorare ulteriormente le prestazioni del modello.
Il framework MoE-LLaVA dimostra di poter superare modelli con un numero simile di parametri attivi e persino quelli con un numero molto maggiore di parametri. Utilizza un approccio sparsificato per gestire token visivi e testuali, mantenendo alte prestazioni. La sua architettura consente una vasta gamma di capacità di comprensione visiva, rendendo il modello adatto a molte applicazioni reali.