Cohere ha annunciato il lancio di due nuovi modelli open-weight nell’ambito del progetto Aya, dedicato a ridurre il divario linguistico nei modelli di intelligenza artificiale. I modelli, chiamati Aya Expanse 8B e 35B, sono ora disponibili su Hugging Face e migliorano le prestazioni in 23 lingue diverse. Secondo Cohere, il modello da 8 miliardi di parametri rende le innovazioni più accessibili ai ricercatori di tutto il mondo, mentre quello da 35 miliardi offre capacità multilingue all’avanguardia.
Il progetto Aya mira a rendere i modelli di intelligenza artificiale più accessibili in lingue diverse dall’inglese. L’iniziativa, avviata lo scorso anno, ha già visto il lancio di Aya 101, un modello da 13 miliardi di parametri che supporta 101 lingue. Inoltre, è stato rilasciato un set di dati per aiutare nell’addestramento di modelli in altre lingue.
I nuovi modelli Aya Expanse sono stati sviluppati seguendo la stessa metodologia utilizzata per Aya 101. Cohere ha spiegato che i miglioramenti derivano da un focus costante sull’espansione dell’IA per le lingue globali, ripensando i principali elementi dell’apprendimento automatico. Tra le innovazioni chiave ci sono l’arbitraggio dei dati, la formazione delle preferenze per migliorare prestazioni e sicurezza, e la fusione dei modelli.
I modelli Aya Expanse hanno mostrato performance superiori rispetto a modelli di intelligenza artificiale simili di Google, Mistral e Meta. In particolare, il modello 32B ha superato il benchmark multilingue di Gemma 2 (27B), Mistral (8x22B) e anche Llama 3.1 (70B), mentre il modello 8B ha battuto Gemma 2 (9B) e Llama 3.1 (8B).
Cohere ha sviluppato i modelli Aya utilizzando un metodo di campionamento dei dati noto come arbitraggio dei dati, evitando così problemi di generazione di linguaggio incomprensibile tipici dei modelli che si basano su dati sintetici. Inoltre, l’azienda ha lavorato per orientare i modelli verso “preferenze globali”, considerando diverse prospettive culturali e linguistiche.
L’iniziativa Aya si concentra su una ricerca efficace sugli LLM (modelli linguistici di grandi dimensioni) in lingue diverse dall’inglese. Sebbene molti LLM siano disponibili in altre lingue, è difficile trovare dati di addestramento per lingue meno diffuse. La predominanza dell’inglese come lingua ufficiale in vari ambiti rende la raccolta di dati più semplice in questa lingua.
Altri sviluppatori stanno collaborando a progetti simili. OpenAI, ad esempio, ha recentemente rilasciato un dataset multilingue su Hugging Face per testare le prestazioni degli LLM in 14 lingue, tra cui arabo, tedesco, swahili e bengalese.
Negli ultimi tempi, Cohere ha continuato a innovare, aggiungendo funzionalità di ricerca immagini a Embed 3 e migliorando il modello Command R 08-2024.