Google ha recentemente presentato PaLI-GEMMA 2, una nuova famiglia di modelli visione-linguaggio (VLM) progettati per migliorare il trasferimento di compiti avanzati attraverso l’apprendimento multimodale. Questi modelli, basati sull’architettura GEMMA 2, rappresentano un’evoluzione significativa rispetto ai loro predecessori, ampliando l’applicabilità a una gamma più ampia di attività.
La serie PaLI-GEMMA 2 comprende modelli di diverse dimensioni—3 miliardi, 10 miliardi e 28 miliardi di parametri—e supporta risoluzioni di input variabili: 224×224, 448×448 e 896×896 pixel. Questa flessibilità consente un’ottimizzazione più efficace dell’apprendimento trasferito in vari domini, permettendo ai modelli di adattarsi meglio alle specifiche esigenze delle diverse applicazioni.
Addestrati su un’infrastruttura Cloud TPU, i modelli PaLI-GEMMA 2 sono stati esposti a un vasto insieme di dati multimodali, che includono attività come la didascalia di immagini, il riconoscimento ottico dei caratteri (OCR) e la generazione di rapporti radiologici. Questa formazione su larga scala ha permesso ai modelli di eccellere in oltre 30 compiti di trasferimento, stabilendo nuovi standard in campi come il riconoscimento della struttura molecolare, la trascrizione di spartiti musicali e l’analisi della struttura delle tabelle.
I ricercatori di Google hanno osservato che l’aumento della risoluzione delle immagini e delle dimensioni del modello influisce positivamente sulle prestazioni di trasferimento, in particolare per compiti di riconoscimento visivo e testuale. Ad esempio, i modelli PaLI-GEMMA 2 hanno raggiunto un’accuratezza all’avanguardia su dataset come HierText per l’OCR e GrandStaff per la trascrizione di spartiti musicali.
Un aspetto distintivo di PaLI-GEMMA 2 è la sua capacità di affrontare applicazioni oltre i benchmark tradizionali. Mentre l’aumento delle risorse computazionali porta generalmente a migliori risultati, alcune applicazioni specializzate traggono maggiore beneficio da una risoluzione più elevata o da modelli di dimensioni maggiori, a seconda della complessità del compito.
Inoltre, PaLI-GEMMA 2 è stato progettato con un’enfasi sull’accessibilità. I modelli supportano formati a bassa precisione, facilitando l’inferenza su dispositivi con risorse limitate. I ricercatori hanno sottolineato che la quantizzazione dei modelli per ambienti basati solo su CPU mantiene una qualità quasi equivalente, rendendo PaLI-GEMMA 2 adatto a una gamma più ampia di implementazioni.