È stato dimostrato che le prestazioni dei modelli di intelligenza artificiale visiva (AI) non dipendono solo dalle loro dimensioni, ma anche dalla diversità e dalla dimensione del set di dati appreso. Ricercatori dell’UC Berkeley e di Microsoft hanno sviluppato modelli di visione di piccole dimensioni preaddestrati su varie scale di immagine, successivamente integrati in modelli multimodali di grandi dimensioni come “GPT-4V” e “Gemini”.
Utilizzando il metodo “S2-Wrapper”, che ridimensiona un modello di visione preaddestrato su diverse scale di immagine senza modificare i parametri, hanno addestrato con successo un modello multimodale con 13 miliardi di parametri chiamato “LLaVA-1.5”.
I risultati hanno dimostrato che questo metodo ha superato i modelli più grandi anche con meno risorse computazionali. Nel test V*, il modello LLaVA-1.5 ha superato modelli commerciali come Gemini Pro e GPT-4V nella comprensione dei dettagli visivi. In particolare, il modello LLaVA-1.5 con wrapper S2 ha migliorato il tasso di successo nelle attività di manipolazione dei robot del 20%.
Questo studio suggerisce che sfruttare la natura multiscala dei dati visivi può portare a prestazioni simili o addirittura migliori rispetto ai grandi modelli multimodali. Recentemente, anche Apple ha pubblicato uno studio in cui ha superato modelli come GPT-4V e Gemini Ultra con un modello di soli 30 miliardi di parametri, dimostrando che la scelta del codificatore di immagini e altri fattori influenzano significativamente le prestazioni.