I ricercatori di Google DeepMind hanno recentemente introdotto PaliGemma, un nuovo modello di linguaggio visivo (VLM) open-source. Nonostante le sue dimensioni relativamente ridotte, PaliGemma ha dimostrato prestazioni eccellenti in una vasta gamma di compiti visivi e linguistici.
Questo modello da 3 miliardi di parametri combina un encoder visivo SigLIP con un modello linguistico Gemma. È stato valutato su quasi 40 benchmark diversi, inclusi compiti standard di VLM e compiti più specializzati come il telerilevamento e la segmentazione delle immagini.
PaliGemma eccelle in attività come la descrizione delle immagini e la comprensione dei video, superando spesso modelli più grandi. La sua architettura, che supporta più immagini di input, lo rende particolarmente adatto per clip video e coppie di immagini. Inoltre, raggiunge risultati all’avanguardia su benchmark come MMVP e Objaverse Multiview senza richiedere una messa a punto specifica per questi compiti.
Tra le scelte di progettazione chiave che contribuiscono alle prestazioni di PaliGemma ci sono l’utilizzo di un obiettivo di formazione pre-LM per l’attenzione bidirezionale, la messa a punto congiunta di tutti i componenti del modello e un processo di formazione in più fasi per aumentare la risoluzione delle immagini. Il team di ricerca ha anche curato attentamente i dati utilizzati per il pre-addestramento del modello.
Attraverso ampi studi, i ricercatori hanno analizzato l’impatto di diverse scelte architettoniche e di formazione. Hanno scoperto che un pre-addestramento più lungo, la messa a punto di tutti i componenti del modello e l’aumento della risoluzione delle immagini hanno contribuito in modo significativo alle capacità di PaliGemma.
Rilasciando PaliGemma come modello di base aperto e senza sintonizzazione delle istruzioni, i ricercatori mirano a fornire un punto di partenza utile per ulteriori ricerche sull’adeguamento delle istruzioni, applicazioni specifiche e una più chiara separazione tra modelli di base e sintonizzazioni nello sviluppo dei VLM.
Le forti prestazioni di questo modello relativamente piccolo suggeriscono che i VLM progettati con cura possono raggiungere risultati all’avanguardia senza dover necessariamente aumentare le dimensioni. Ciò potrebbe portare a sistemi di intelligenza artificiale multimodali più efficienti e accessibili.