Cohere for AI (C4AI), il braccio di ricerca senza scopo di lucro della startup canadese Cohere, ha annunciato oggi il rilascio di Aya 23, una nuova famiglia di modelli linguistici multilingue all’avanguardia.
Aya 23 è disponibile in due varianti: 8B e 35B, che indicano la potenza dei collegamenti tra i neuroni artificiali nel modello di intelligenza artificiale, con valori più alti che indicano modelli più potenti e capaci. Questa nuova iniziativa segue il successo dell’iniziativa Aya di C4AI, che mira a fornire modelli multilingue robusti.
C4AI ha reso open source i pesi di Aya 23, che sono essenzialmente numeri che influenzano il funzionamento della rete neurale del modello di intelligenza artificiale. Questo permette ai ricercatori di terze parti di personalizzare il modello secondo le proprie esigenze, anche se non sono disponibili i dati di addestramento completi. Tuttavia, questa apertura è molto flessibile e permette una vasta gamma di applicazioni.
Aya 23, basato sul modello originale Aya 101, supporta 23 lingue diverse, tra cui arabo, cinese (semplificato e tradizionale), inglese, francese, tedesco, giapponese e spagnolo, coprendo quasi la metà della popolazione mondiale. Secondo C4AI, questi modelli superano non solo Aya 101, ma anche altri modelli aperti come Gemma di Google e vari modelli open source di Mistral, garantendo risultati di alta qualità in tutte le lingue coperte.
Sebbene i modelli linguistici di grandi dimensioni abbiano prosperato, la maggior parte di essi è stata focalizzata sull’inglese, mentre altre lingue sono state trascurate. Per affrontare questa lacuna, C4AI ha lanciato l’iniziativa Aya, coinvolgendo oltre 3.000 ricercatori da tutto il mondo per creare una vasta raccolta di dati multilingue. Questi dati sono stati utilizzati per sviluppare il modello Aya 101, che è stato rilasciato come modello open source nel febbraio 2024.
Tuttavia, Aya 101 aveva limitazioni in quanto era basato su mT5, diventato obsoleto in termini di conoscenza e prestazioni, e aveva una copertura troppo ampia per garantire prestazioni ottimali in tutte le lingue.
Con il rilascio di Aya 23, C4AI sta cercando di bilanciare la copertura delle lingue con la qualità dei risultati. Questi modelli, basati sulla serie Command di Cohere e sulla Collezione Aya, sono stati ottimizzati per garantire prestazioni migliori nelle 23 lingue supportate.
Per facilitare l’accesso a questa ricerca, C4AI ha reso disponibili i pesi dei modelli Aya 23 su Hugging Face sotto una licenza Creative Commons. Questo permette ai ricercatori e ai professionisti di sviluppare e migliorare ulteriormente i modelli multilingue. Inoltre, è possibile provare gratuitamente i nuovi modelli sul Cohere Playground.