Google PaLI

Diihal

Set 16, 2022

Google presenta PaLI, il ridimensionamento dell’apprendimento della lingua e dell’immagine in oltre 100 lingue
Si afferma che il modello PaLI, pre-addestrato su WebLI, raggiunga prestazioni all’avanguardia su benchmark di immagini e linguaggi impegnativi, come COCO-Captions, CC3M, TextCaps, nocaps,  
In un post sul blog la scorsa settimana, Google AI ha introdotto “PALI” , un modello di immagine-lingua multilingue su scala congiunta che viene addestrato per eseguire varie attività in oltre 100 lingue. 

L’obiettivo del progetto è esaminare come i modelli linguistici e visivi interagiscono su larga scala, con un’attenzione particolare alla scalabilità dei modelli linguaggio-immagine. 

 
Il modello svelato di recente svolgerebbe attività che abbracciano la visione, il linguaggio, l’immagine multimodale e le applicazioni linguistiche, come la risposta visiva a domande, l’identificazione di oggetti, la didascalia delle immagini, l’OCR e il ragionamento del testo.

I ricercatori hanno utilizzato una raccolta di immagini pubbliche, che include annotazioni raccolte automaticamente in 109 lingue chiamate ” set di dati WebLI” . Si dice che il modello PaLI, pre-addestrato su WebLI, raggiunga prestazioni all’avanguardia su benchmark di immagini e linguaggi impegnativi, come COCO- Captions , CC3M , TextCaps , nocaps , VQAv2 e OK-VQA .

 
Fratelli delle nuvole
Si dice che l’architettura del modello PaLI sia semplice, scalabile e riutilizzabile. Il testo di input viene elaborato con l’aiuto di un codificatore Transformer insieme a un decoder Transformer auto-regressivo che genera il testo di output. L’input dell’encoder Transformer include inoltre “parole visive” che rappresentano un’immagine che è stata elaborata da un Vision Transformer (ViT) .


La ricerca sulla scalabilità del deep learning suggerisce che i modelli più grandi necessitano di più set di dati per essere addestrati in modo efficiente. Secondo il blog, il team ha creato WebLI, un set di dati di immagini linguistiche multilingue composto da immagini e testo prontamente disponibili sul Web pubblico, al fine di sbloccare il potenziale della preformazione linguistica-immagine. 

Aggiunge inoltre che “WebLI amplia la lingua del testo dai set di dati solo in inglese a 109 lingue, il che ci consente di eseguire attività a valle in molte lingue. Il processo di raccolta dei dati è simile a quello impiegato da altri set di dati, ad esempio ALIGN e LiT , e ci ha permesso di scalare il set di dati WebLI a 10 miliardi di immagini e 12 miliardi di testi alternativi”.

Si ritiene che PaLI superi le prestazioni dei sottotitoli visivi multilingue e dei benchmark visivi per la risposta alle domande dei modelli precedenti. Il team spera che il lavoro ispiri ulteriori ricerche sui modelli multimodali e multilingue. I ricercatori ritengono che per svolgere compiti visivi e linguistici siano necessari modelli su larga scala in più lingue. Inoltre, affermano che un ulteriore ridimensionamento di tali modelli potrebbe essere vantaggioso per il raggiungimento di questi compiti.

Di ihal