Alibaba ha recentemente annunciato il lancio di Babel, un modello di linguaggio di grandi dimensioni (LLM) open source progettato per supportare 25 lingue utilizzate dal 90% della popolazione mondiale. Questo sviluppo rappresenta un passo significativo nell’espansione delle capacità multilingue dell’intelligenza artificiale, affrontando le sfide legate alle lingue con risorse limitate.​

Il nome “Babel” trae ispirazione dalla Torre di Babele della Bibbia, simbolo dell’ambizione umana di raggiungere il cielo e dell’origine della diversità linguistica. Con questo nome, Alibaba intende sottolineare l’obiettivo di unificare la comunicazione globale attraverso un unico modello linguistico, permettendo una comprensione e interazione senza precedenti tra diverse culture e lingue.​

Molti LLM esistenti tendono a concentrarsi su lingue con abbondanti risorse di dati, come l’inglese, il cinese e lo spagnolo, offrendo prestazioni eccellenti in questi ambiti. Tuttavia, lingue come il swahili, il giavanese e il birmano spesso non ricevono la stessa attenzione, risultando in prestazioni inferiori a causa della scarsità di dati disponibili per l’addestramento. Questa disparità limita l’accessibilità e l’efficacia dell’IA in contesti globali, dove la diversità linguistica è fondamentale.​

Per superare queste limitazioni, il team di ricerca dell’Academy for Discovery, Adventure, Momentum and Outlook (DAMO) di Alibaba ha introdotto una tecnica chiamata “layer extension” (estensione degli strati). Questo approccio prevede l’espansione della dimensione del modello aggiungendo nuovi strati che rispecchiano la struttura degli strati originali, senza alterare componenti cruciali come le “attention heads” o gli strati di embedding. Questo metodo consente di migliorare le prestazioni del modello mantenendo l’efficienza computazionale, evitando la necessità di riaddestramenti completi e riducendo i costi associati.​

Un altro aspetto cruciale nello sviluppo di Babel è stata la costruzione di un pipeline per la selezione rigorosa dei dati da diverse fonti, al fine di mitigare lo squilibrio delle risorse linguistiche e migliorare la qualità dei dati di addestramento. Il dataset comprende informazioni provenienti da Wikipedia, articoli di notizie, libri di testo e corpora multilingue come “MADLAD-400” e “CulturaX”. Questa diversificazione delle fonti assicura una rappresentazione più equilibrata delle lingue, migliorando la capacità del modello di gestire una vasta gamma di contesti linguistici.​

Alibaba ha rilasciato due versioni di Babel:​

  • Babel-9B: Ottimizzata per mantenere capacità di comprensione multilingue con una velocità migliorata, questa versione è progettata per applicazioni che richiedono efficienza senza compromettere la qualità.​
  • Babel-83B: Progettata per competere con modelli commerciali di grandi dimensioni, questa versione offre prestazioni potenziate per applicazioni che richiedono una comprensione linguistica approfondita e sofisticata.​

Nei test di benchmark, Babel ha dimostrato prestazioni superiori rispetto ai precedenti LLM multilingue:​

  • Babel-9B: Ha ottenuto un punteggio medio di 63,4, superando modelli di dimensioni simili come “GLM4-9B” (59,2) e “Gemma2-9B” (59,5). Ha inoltre mostrato risultati eccellenti in compiti di ragionamento (“MGSM” con 43,4 punti) e traduzione (“Flores-200” con 55,1 punti).​
  • Babel-83B: Con un punteggio medio di 73,2, ha stabilito un nuovo standard tra i modelli multilingue, superando “Qwen2.5-72B” (69,8) e “Llama3.1-70B” (66,9). Ha mostrato miglioramenti del 5-10% nella gestione di lingue a basse risorse, dimostrando una maggiore copertura linguistica.​

Inoltre, il modello fine-tuned di Babel, addestrato su oltre un milione di dataset conversazionali, ha mostrato prestazioni comparabili a modelli AI commerciali come GPT-4.​

Il codice sorgente di Babel è disponibile per il download su piattaforme come GitHub e Hugging Face, rendendolo accessibile a ricercatori e sviluppatori di tutto il mondo. Questo rilascio open source promuove la collaborazione e l’innovazione nella comunità dell’IA, offrendo strumenti per sviluppare applicazioni più inclusive e rappresentative della diversità linguistica globale.​

Questo annuncio segue di pochi giorni il lancio di “Aya Vision” da parte di Cohere, un modello visivo linguistico open source che supporta 23 lingue utilizzate dalla metà della popolazione mondiale. Inoltre, aziende come Mistral hanno recentemente rilasciato modelli specializzati in arabo, mentre l’Unione Europea ha avviato progetti per modelli fondamentali che incorporano le 24 lingue ufficiali dell’UE. Questi sviluppi indicano una tendenza crescente verso la creazione di modelli multilingue per soddisfare le esigenze delle imprese globali, promuovendo una maggiore inclusività e accessibilità nell’era dell’intelligenza artificiale.

Di Fantasy