Cohere For AI, il laboratorio di ricerca di Cohere, ha recentemente presentato Maya, un modello multimodale multilingue open-source progettato per affrontare le carenze nei modelli linguistici visivi, specialmente nelle lingue con risorse limitate. Maya mira a migliorare l’accessibilità e la comprensione culturale attraverso l’ottimizzazione della qualità dei dati e il filtraggio della tossicità. Il modello e i relativi dataset sono disponibili su GitHub per ulteriori sviluppi.
I ricercatori hanno sottolineato che i dataset attuali spesso contengono contenuti tossici e culturalmente insensibili, perpetuando pregiudizi e stereotipi. Per affrontare questa sfida, il team ha creato un dataset di pre-addestramento composto da 558.000 coppie immagine-testo in otto lingue, tra cui arabo, hindi e spagnolo. Questo dataset enfatizza la diversità culturale e utilizza strumenti come Toxic-BERT e LLaVAGuard per mitigare la tossicità.
Nei benchmark multilingue, Maya ha mostrato prestazioni notevoli, superando modelli esistenti in specifici compiti e lingue, come l’arabo, e offrendo performance comparabili a modelli più grandi come PALO-13B. Il modello si è dimostrato efficace in attività come la didascalia di immagini e la risposta a domande visive.
Per il futuro, il team di ricerca prevede di espandere il dataset di Maya per includere più lingue, come il bengalese e l’urdu, e di migliorare le capacità di istruzione del modello. Inoltre, si mira a perfezionare l’adattabilità del modello per compiti di ragionamento complessi.
L’approccio open-source e inclusivo di Maya rappresenta un passo avanti significativo nell’intelligenza artificiale, affrontando la necessità critica di modelli che comprendano diverse lingue e contesti culturali. Questo sviluppo segue il lancio di Aya da parte di Cohere nell’agosto precedente, un modello generativo multilingue che supporta 101 lingue, inclusi idiomi indiani come hindi e marathi, con oltre il 50% delle lingue in categorie a basse risorse. Aya ha superato modelli come mT0 e BLOOMZ in vari benchmark, raddoppiando la copertura linguistica. Sviluppato in collaborazione con 3.000 ricercatori provenienti da 119 paesi, Aya è stato reso open-source per affrontare la scarsità di dataset AI nelle lingue vernacolari.