Una recente ricerca di Microsoft rivela che l’88% delle lingue mondiali, parlate da circa 1,2 miliardi di persone, non beneficia dei Large Language Models (LLM). La maggior parte di questi LLM sono focalizzati sull’inglese, limitando così l’accesso ai loro vantaggi per chi non parla questa lingua. Questo crea un “divario linguistico digitale”.
I LLM multilingue rappresentano una soluzione a questo problema. Sono capaci di comprendere e generare testi in più lingue, grazie alla loro formazione su dati in diverse lingue. Offrono applicazioni versatili come la traduzione di letteratura in dialetti locali, comunicazione in tempo reale in diverse lingue, e creazione di contenuti multilingue. Tuttavia, incontrano sfide come la mancanza di contesti culturali specifici, limitazioni dei dati e perdita di informazioni nella traduzione.
Per costruire un LLM multilingue, si utilizzano tecniche come la condivisione di incorporamenti e l’apprendimento del trasferimento interlinguistico. Queste tecniche aiutano i LLM a comprendere le somiglianze e le differenze tra le lingue.
Esempi di LLM multilingue includono BLOOM, YAYI 2, PolyLM, XGLM e mT5. Questi modelli variano in termini di parametri, lingue supportate e focus specifici. BLOOM, ad esempio, è un LLM open source che supporta 46 lingue naturali e 13 di programmazione, mentre YAYI 2 si concentra sulle lingue asiatiche.
Per migliorare ulteriormente gli LLM multilingue, è necessario il coinvolgimento della comunità, il crowdsourcing da parte di madrelingua e il supporto per gli sforzi open source. Tuttavia, vi sono sfide da affrontare, come la necessità di ampi set di dati, l’accuratezza culturale, le risorse computazionali richieste, l’adattamento delle architetture dei modelli e la valutazione complessa delle prestazioni.
In conclusione, gli LLM multilingue sono promettenti nel superare le barriere linguistiche e nel potenziare le lingue meno diffuse, ma richiedono ulteriori sviluppi e soluzioni per le sfide esistenti.