Che cos’è esattamente MURAL di Google AI: recupero multimodale e multi-task tra le lingue?

MURAL utilizza l’apprendimento multitask applicato a coppie immagine-testo in combinazione con coppie di traduzione che coprono oltre 100 lingue.

Ci sono circa 7000 lingue parlate in questo mondo e, spesso, non esiste una traduzione diretta da una lingua all’altra. Anche se tali traduzioni esistono, potrebbero non essere esattamente accurate e diverse associazioni e connotazioni possono essere facilmente perse per un non madrelingua. Questo problema può essere risolto presentando un testo abbinato a un’immagine di supporto. Tuttavia, tali dati sulla coppia immagine-testo non esistono per la maggior parte delle lingue . Questo tipo di dati proviene principalmente da lingue con molte risorse come inglese e cinese.

Per risolvere questo problema, Google AI ha rilasciato il modello ” MURAL: Multimodal, Multitask Representations Across Languages ” per la corrispondenza immagine-testo . Utilizza l’apprendimento multitask applicato a coppie immagine-testo in combinazione con coppie di traduzione che coprono oltre 100 lingue.Nel documento intitolato ” MURAL: Multimodal, Multitask Retrieval Across Languages “, il team di ricerca afferma di aver esplorato l’apprendimento del doppio codificatore da entrambe le coppie di didascalie di immagini e di traduzione su larga scala (6 miliardi di coppie di traduzione e 1,8 miliardi di coppie di didascalie di immagini) . Fare questo era un grosso problema prima, poiché i set di dati di testo immagine multilingue come Multi30k, STAIR e XTD supportano solo lingue ad alta risorsa. Ma il recente set di dati Wikipedia Image-Text (WIT) affronta questo problema coprendo 108 lingue.

MURALE Architettura
L’architettura è basata sulla struttura di ALIGN , ma impiegata in modo multitasking, afferma Google. MURAL utilizza un’architettura a doppio codificatore per disegnare insieme rappresentazioni di immagini e descrizioni di testo associate e la estende anche a varie lingue incorporando coppie di traduzione. Google aggiunge che le coppie di traduzione sono quelle utilizzate per LaBSE mentre il set di dati delle coppie immagine-testo è lo stesso utilizzato per ALIGN. Per le lingue con risorse insufficienti come l’hindi, MURAL mostra prestazioni di recupero migliorate rispetto ad ALIGN. Per il recupero di immagini → testo in una lingua ben fornita come il francese, MURAL mostra una migliore comprensione per alcune parole.

Set di dati di allenamento
I ricercatori affermano nel documento “MURAL: Multimodal, Multitask Retrieval Across Languages”, che i set di dati di addestramento utilizzati sono:

Conceptual 12M (CC12M) – Un set di dati di didascalia delle immagini disponibile pubblicamente in inglese. Ha 12 milioni di coppie ottenute da immagini web e le corrispondenti descrizioni di testo alternativo.
La versione multilingue di Alt-Text con 1,8 miliardi di immagini e le relative descrizioni di testo alternativo, che copre 110 lingue.
Il team ha creato un insieme di dati di coppie di traduzioni bilingue aperte (EOBT) combinando set di dati disponibili pubblicamente. L’EOBT ha circa 500 milioni di coppie in tutte le lingue.
Set di dati di valutazione
Qui, il team di ricerca ha utilizzato :

Flickr30K – 31k immagini e viene fornito con cinque didascalie in inglese per immagine. Multi30K estende Flickr30k con didascalie in tedesco, francese e ceco.
MS-COCO ha cinque didascalie inglesi generate dall’uomo per immagine. 
Il database STAIR aggiunge didascalie giapponesi di crowdsourcing umano per le immagini MSCOCO.
XTD – Set di solo test con sette lingue ben fornite: italiano, spagnolo, russo, cinese, polacco, turco e coreano.
Set di dati Wikipedia Image Text (WIT) distribuito in 108 lingue. 
Le didascalie incrociate estendono l’inglese MSCOCO 5k dev e test set con annotazioni di somiglianza umana per attività sia intra che intermodali.  
Google AI afferma che i precedenti ricercatori in questo settore hanno mostrato interessanti connessioni tra le lingue. Il team di ricerca ha trovato una visualizzazione simile per un sottoinsieme di lingue che appartengono alle famiglie linguistiche germanica, slava, uralica, finnica, celtica e ugrofinnica.

 

Risultati
Il team di Google AI afferma che i risultati mostrano che ALIGN è migliorato aggiungendo un obiettivo di classificazione bitext. Ha aggiunto che quest’ultimo corrisponde alle prestazioni di recupero del testo dell’immagine zero-shot su lingue con risorse adeguate. Migliora in modo significativo le prestazioni su lingue con risorse insufficienti. 

Per XTD, MURAL migliora il ricordo@10 in media del 4%. Su WIT zero-shot, MURAL migliora il ricordo medio dell’1,7% in media per nove lingue con risorse adeguate e dell’8,1% per otto lingue con risorse insufficienti. Dopo la messa a punto su WIT, il ricordo medio di MURAL è dell’1,8% e del 6,8% migliore di ALIGN, in media, rispettivamente per le lingue con risorse adeguate e risorse insufficienti.

Di ihal