Un team di ricercatori provenienti dall’Anhui Polytechnic University, dalla Nanyang Technological University e dalla Lehigh University in Cina ha presentato un modello di intelligenza artificiale che sta catturando l’attenzione: il TinyGPT-V. Questo modello segna una svolta significativa nello sviluppo di modelli di linguaggio leggeri ed efficienti, offrendo prestazioni eccezionali con requisiti computazionali minimi.
Rispetto ad altri modelli di linguaggio basati su trasformatori, come Flamingo e MiniGPT-4, il TinyGPT-V raggiunge prestazioni superiori, anche rispetto a modelli con 13 miliardi e 7 miliardi di parametri. Questo risultato è stato ottenuto sfruttando l’architettura Phi-2 di Microsoft.
Ciò che rende il TinyGPT-V davvero speciale è il suo basso requisito hardware: richiede solo una GPU da 24 GB per l’addestramento e può essere eseguito su una GPU o CPU con soli 8 GB di memoria per l’inferenza. Questo supera le sfide legate all’efficienza computazionale che spesso limitano i modelli precedenti.
TinyGPT-V si basa sull’architettura Phi-2 per il linguaggio e integra moduli di visione preaddestrati da BLIP-2 o CLIP, creando un equilibrio unico tra prestazioni di alto livello e bassi requisiti di risorse.
Una caratteristica distintiva di TinyGPT-V è l’uso di una tecnica di quantizzazione che consente l’esecuzione su dispositivi con solo 8 GB di memoria, aprendo la strada a una serie di applicazioni reali in cui l’uso di modelli di grandi dimensioni potrebbe non essere pratico.
Inoltre, il modello incorpora strati di proiezione lineare che agevolano l’integrazione efficiente delle informazioni visive nella comprensione del linguaggio, colmando il divario tra le informazioni basate su immagini e il contesto linguistico.
TinyGPT-V ha dimostrato le sue eccezionali capacità attraverso diversi benchmark. In attività complesse come il ragionamento visuale-spaziale (VSR) in modalità zero-shot, il modello ha superato modelli con un numero significativamente maggiore di parametri, dimostrando la sua abilità nell’affrontare in modo efficiente compiti multimodali complessi.
I risultati dei benchmark, tra cui GQA, IconVQ, VizWiz e il dataset Hateful Memes, mettono in luce la versatilità e l’efficienza computazionale straordinarie di TinyGPT-V, rendendolo una scelta interessante per una vasta gamma di applicazioni nel mondo reale.