PaliGemma: il nuovo modello AI di linguaggio visivo di Google DeepMind open source

I ricercatori di Google DeepMind hanno recentemente introdotto PaliGemma, un nuovo modello di linguaggio visivo (VLM) open-source. Nonostante le sue dimensioni relativamente ridotte, PaliGemma ha dimostrato prestazioni eccellenti in una vasta gamma di compiti visivi e linguistici.

Questo modello da 3 miliardi di parametri combina un encoder visivo SigLIP con un modello linguistico Gemma. È stato valutato su quasi 40 benchmark diversi, inclusi compiti standard di VLM e compiti più specializzati come il telerilevamento e la segmentazione delle immagini.

PaliGemma eccelle in attività come la descrizione delle immagini e la comprensione dei video, superando spesso modelli più grandi. La sua architettura, che supporta più immagini di input, lo rende particolarmente adatto per clip video e coppie di immagini. Inoltre, raggiunge risultati all’avanguardia su benchmark come MMVP e Objaverse Multiview senza richiedere una messa a punto specifica per questi compiti.

Tra le scelte di progettazione chiave che contribuiscono alle prestazioni di PaliGemma ci sono l’utilizzo di un obiettivo di formazione pre-LM per l’attenzione bidirezionale, la messa a punto congiunta di tutti i componenti del modello e un processo di formazione in più fasi per aumentare la risoluzione delle immagini. Il team di ricerca ha anche curato attentamente i dati utilizzati per il pre-addestramento del modello.

Attraverso ampi studi, i ricercatori hanno analizzato l’impatto di diverse scelte architettoniche e di formazione. Hanno scoperto che un pre-addestramento più lungo, la messa a punto di tutti i componenti del modello e l’aumento della risoluzione delle immagini hanno contribuito in modo significativo alle capacità di PaliGemma.

Rilasciando PaliGemma come modello di base aperto e senza sintonizzazione delle istruzioni, i ricercatori mirano a fornire un punto di partenza utile per ulteriori ricerche sull’adeguamento delle istruzioni, applicazioni specifiche e una più chiara separazione tra modelli di base e sintonizzazioni nello sviluppo dei VLM.

Le forti prestazioni di questo modello relativamente piccolo suggeriscono che i VLM progettati con cura possono raggiungere risultati all’avanguardia senza dover necessariamente aumentare le dimensioni. Ciò potrebbe portare a sistemi di intelligenza artificiale multimodali più efficienti e accessibili.

PaliGemma: il nuovo modello AI di linguaggio visivo di Google DeepMind open source

DiFantasy

Di Fantasy

Articoli correlati

Cosmo di CodeSignal, l’app AI che trasforma i momenti liberi in passi concreti per la carriera

Inclusion Arena valuta gli LLM in produzione

Wheelie lancia il robot delle pulizie Razinos che riconosce principi d’incendio

You missed

Cosmo di CodeSignal, l’app AI che trasforma i momenti liberi in passi concreti per la carriera

Inclusion Arena valuta gli LLM in produzione

Wheelie lancia il robot delle pulizie Razinos che riconosce principi d’incendio

TTS di Selvas AI conquista gli ebook di Yes24: un nuovo modo di leggere che parla