I ricercatori di ByteDance e dell’Università di Hong Kong hanno sviluppato Groma, un potente modello multimodale di linguaggio di grandi dimensioni (MLLM). Questo modello si distingue per la sua capacità di eccellere nelle attività di analisi delle immagini a livello regionale, utilizzando una nuova tecnica di tokenizzazione visiva localizzata e sfruttando la potenza del GPT-4V.
Groma non solo comprende interamente le immagini, ma si specializza anche nell’analisi a livello di singole regioni, come la comprensione dei sottotitoli regionali e il rilevamento visivo. A differenza di altri modelli che si appoggiano a linguaggi o moduli esterni per la localizzazione, Groma sfrutta la sua capacità innata di comprendere lo spazio visivo. Questo approccio, chiamato “percepisci e poi comprendi”, si rifà al modo in cui funziona la visione umana.
Il processo di tokenizzazione visiva localizzata di Groma funziona così: un’immagine viene suddivisa in regioni di interesse, che vengono quindi convertite in token regionali. Groma codifica sia l’immagine nel suo complesso che le singole regioni, integrando i token regionali nelle istruzioni dell’utente e nelle risposte del modello. In questo modo, Groma riesce a comprendere le specifiche richieste dell’utente e a fornire risposte pertinenti collegate alle immagini.
Per potenziare ulteriormente le capacità di Groma nella conduzione di conversazioni basate sulla vista, il team ha sviluppato un set di dati composto da 30.000 conversazioni che coinvolgono immagini. Questo set di dati è il primo del suo genere, in quanto include istruzioni sia visive che testuali, e sfrutta la potenza del GPT-4V per generare dati di alta qualità.
Rispetto ad altri modelli MLLM che si affidano a modelli linguistici o a moduli esterni per la localizzazione, Groma continua a mostrare prestazioni superiori nei test standard e nei benchmark di riferimento. Questo dimostra chiaramente i vantaggi derivanti dall’integrazione della localizzazione nella tokenizzazione delle immagini.