Google ha sviluppato un nuovo modello multimodale di linguaggio visivo sotto il suo ombrello Gemma di modelli aperti leggeri. Denominato PaliGemma, è progettato per affrontare la didascalia delle immagini, la risposta visiva alle domande e il recupero delle immagini. Si unisce ad altre varianti di Gemma, CodeGemma e RecurrentGemma , ed è disponibile a partire da oggi per essere utilizzato dagli sviluppatori nei loro progetti.
Google ha annunciato PaliGemma alla conferenza degli sviluppatori. PaliGemma si distingue come l’unico modello della famiglia Gemma pensato per tradurre le informazioni visive in linguaggio scritto. È anche un modello linguistico piccolo (SLM). Questa distinzione significa che funziona in modo efficiente senza richiedere molta memoria o potenza di elaborazione, rendendolo adatto all’uso su dispositivi con risorse limitate come smartphone, dispositivi IoT e personal computer.
Gli sviluppatori potrebbero essere attratti dal modello perché apre una serie di nuove potenzialità per le loro applicazioni. PaliGemma potrebbe aiutare gli utenti dell’app a generare contenuti, offrire maggiori funzionalità di ricerca o aiutare i non vedenti a comprendere meglio il mondo che li circonda. Quando utilizziamo l’intelligenza artificiale, solitamente viene fornita tramite il cloud e tramite uno o più modelli linguistici di grandi dimensioni (LLM). Ma per ridurre la latenza – il tempo necessario dalla ricezione di un input alla generazione di una risposta – gli sviluppatori possono optare per gli SLM . Oppure potrebbero rivolgersi a questi modelli quando hanno a che fare con dispositivi in cui l’affidabilità di Internet potrebbe rappresentare un problema.
Le app web e mobili sono forse i casi d’uso più convenzionali per PaliGemma, ma è possibile che il modello possa essere incorporato in dispositivi indossabili come occhiali da sole che potrebbero competere con i Ray-Ban Meta Smart Glasses o in dispositivi simili a Rabbit r1 o Humane AI. Spillo. E non dimentichiamoci dei robot che operano nelle nostre case e nei nostri uffici. Poiché Gemma si basa sulla stessa ricerca e tecnologia di Google Gemini, gli sviluppatori potrebbero sentirsi più a loro agio nell’adottare la tecnologia nel loro lavoro.
Il rilascio di PaliGemma non è l’unico annuncio che Google fa oggi riguardo a Gemma. L’azienda ha anche rivelato la sua versione più grande di Gemma, contenente 27 miliardi di parametri.