Oggi, è stato annunciato che Cohere for AI, il laboratorio di ricerca senza scopo di lucro fondato da Cohere nel 2022, ha presentato Aya, un modello LLM (Large Language Model) open source che supporta 101 lingue, più del doppio del numero di lingue coperte dai modelli open source esistenti.
I ricercatori hanno reso pubblico anche il set di dati Aya, una raccolta di annotazioni umane corrispondenti, indicando che ciò è cruciale poiché un ostacolo nell’apprendimento delle lingue meno comuni è la scarsità di materiale di base su cui addestrarsi. Cohere for AI ha sottolineato che gli ingegneri del laboratorio hanno anche sviluppato metodi per migliorare le prestazioni del modello con meno dati di addestramento.
Il progetto Aya, avviato nel gennaio 2023, è stato descritto come un impegno massiccio coinvolgente con oltre 3000 collaboratori in tutto il mondo, inclusi team e partecipanti provenienti da 119 paesi, come indicato da Sara Hooker, vicepresidente della ricerca presso Cohere e leader di Cohere for AI.
Con oltre 513 milioni di annotazioni ottimizzate per le istruzioni (etichette di dati per aiutare a classificare le informazioni), Hooker ha descritto questo tipo di dati come la “polvere d’oro” di grande valore che si accumula alla fine del processo di formazione del LLM (a differenza dei dati pre-formazione recuperati da Internet).
Ivan Zhang, co-fondatore e CTO di Cohere, ha annunciato che “stiamo rilasciando dimostrazioni umane in oltre 100 lingue per ampliare ulteriormente l’intelligenza e garantire che serva più umanità oltre al solo mondo alfabetizzato inglese”, definendolo “ancora un’altra impresa scientifica e operativa impossibile raggiunta da” Hooker e il team Cohere for AI.
Secondo un post sul blog di Cohere, il nuovo modello e il set di dati mirano ad aiutare “i ricercatori a sbloccare il potente potenziale degli LLM per dozzine di lingue e culture in gran parte ignorate dai modelli più avanzati oggi sul mercato”.
Cohere for AI ha dichiarato di aver confrontato le prestazioni dei modelli Aya con quelli disponibili in modalità open source e ampiamente multilingue. Aya supera i migliori modelli open source, come mT0 e Bloomz, in termini di prestazioni nei test benchmark “con un ampio margine” ed espande la copertura a più di 25 lingue.
Hooker ha sottolineato che qualsiasi modello con più di sei lingue è generalmente considerato “estremo” in termini di prestazioni multilingue, e una volta superate le 25 lingue, diventa “massicciamente multilingue”. Ha spiegato che esiste una sorta di “scoglio” di dati al di fuori dei dati di messa a punto inglesi, e quindi i dati di Aya sono “incredibilmente rari”.
Ha aggiunto che l’impegno “sicuramente non è sufficiente”, ma “è un passo nella giusta direzione”. Ha spiegato che è necessaria una comunità di ricerca globale che lavori su questo punto e ha sottolineato l’importanza del sostegno dei governi di tutto il mondo per comprendere la necessità di creare fonti di dati ampie e di alta qualità per preservare lingue e culture nel nuovo mondo dell’intelligenza artificiale.
Il modello e i set di dati Aya di Cohere for AI sono già disponibili su Hugging Face.