La scena dell’IA generativa è in fervente sviluppo, spinta dall’introduzione dei Large Multimodal Models (LMM). Questi modelli stanno rivoluzionando il nostro modo di interagire con i sistemi IA, abilitandoci a usare sia immagini che testo come input. Un esempio eclatante è il GPT-4 Vision di OpenAI, ma la sua natura proprietaria e closed-source potrebbe limitarne l’applicazione in certi ambiti.
Nonostante ciò, la comunità open source non resta a guardare, e LLaVA 1.5 emerge come un progetto allettante, proponendo alternative open source a GPT-4 Vision.
LLaVA 1.5 integra vari elementi di IA generativa, essendo stato sviluppato per essere un modello computazionalmente efficiente che performa una varietà di compiti con alta precisione. Benché non sia l’unico LMM open source disponibile, la sua efficienza computazionale e elevate prestazioni potrebbero indicare un nuovo percorso per il futuro della ricerca sugli LMM.
Gli LMM, in generale, utilizzano un’architettura che integra diversi componenti pre-esistenti: un modello pre-addestrato per la codifica delle caratteristiche visive, un Large Language Model (LLM) pre-addestrato per interpretare le istruzioni dell’utente e generare risposte, e un connettore intermodale per allineare il codificatore visivo con il modello linguistico.
L’addestramento di un LMM che obbedisce alle istruzioni di solito si sviluppa in due fasi. La pre-formazione sull’allineamento visione-linguaggio, utilizzando coppie immagine-testo per sincronizzare le caratteristiche visive con lo spazio di embedding delle parole del modello linguistico, e l’ottimizzazione per istruzioni visive, permettendo al modello di seguire e rispondere alle istruzioni legate al contenuto visivo, una fase spesso impegnativa per la sua natura computazionalmente intensiva e per la necessità di un vasto dataset di esempi accuratamente curati.
Per la codifica visiva, LLaVA 1.5 utilizza CLIP (Contrastive Language–Image Pre-training), un modello sviluppato da OpenAI nel 2021. CLIP apprende a collegare immagini e testo, addestrandosi su un ampio dataset di coppie immagine-descrizione. È utilizzato in modelli di punta per la conversione testo-immagine, come DALL-E 2.
Il modello linguistico utilizzato in LLaVA è Vicuna, una variante di LLaMA, un modello open source di Meta, ottimizzato per eseguire istruzioni. LLaVA 1.5 porta il modello originale al livello successivo collegando il modello linguistico e il codificatore visivo tramite un Multilayer Perceptron (MLP), un modello di deep learning in cui tutti i neuroni sono completamente connessi.
Gli sviluppatori hanno anche implementato ulteriori set di dati di risposta visiva open source, scalato la risoluzione delle immagini di input, e raccolto dati da ShareGPT, una piattaforma online dove gli utenti possono condividere le loro conversazioni con ChatGPT.
LLaVA 1.5, secondo quanto riportato dai ricercatori, supera altri LMM open source in 11 su 12 benchmark multimodali, sebbene valutare le performance degli LMM sia intricato e i benchmark potrebbero non riflettere necessariamente le prestazioni in scenari reali.
Una demo online di LLaVA 1.5 è disponibile, mostrando risultati notevoli da un modello che può essere addestrato ed eseguito con un budget contenuto. Il codice e i dati sono accessibili, favorendo ulteriori sviluppi e personalizzazioni.
È importante notare che LLaVA 1.5 viene con un caveat. Poiché è stato addestrato su dati generati da ChatGPT, non può essere utilizzato per fini commerciali a causa dei termini di utilizzo di ChatGPT, che proibiscono agli sviluppatori di usarlo per formare modelli commerciali in competizione.
Nonostante la creazione di un prodotto IA comporti diverse sfide oltre alla formazione di un modello, e nonostante LLaVA non sia ancora una controparte diretta di GPT-4V, che offre comodità, facilità d’uso e integrazione con altri strumenti OpenAI come DALL-E 3 e plugin esterni, LLaVA 1.5 è rilevante per diverse ragioni, incluso il suo rapporto costi-benefici e la sua scalabilità nella generazione di dati per l’ottimizzazione visiva delle istruzioni con LLM.
Numerose alternative open source a ChatGPT potrebbero servire a questo scopo, ed è solo una questione di tempo prima che altri replichino e espandano il successo di LLaVA 1.5 in nuove direzioni, inclusi licenze più permissive e modelli specifici per l’applicazione.
LLaVA 1.5 offre un assaggio di quello che potremmo vedere nei prossimi mesi nello spazio degli LMM open source. Man mano che la comunità open source prosegue nella sua innovazione, ci aspettiamo modelli più efficienti e accessibili che porteranno ulteriormente la nuova ondata di tecnologie IA generativa verso una democratizzazione.