L’IA diventa multilingue con BLOOM di Hugging Face 


Con tutta l’eccitazione e le innovazioni che circondano l’intelligenza artificiale (AI) negli ultimi anni, una cosa fondamentale è stata spesso lasciata indietro: il supporto per più lingue, oltre al solo inglese.

Ora le cose stanno per cambiare, grazie in parte al lancio di BLOOM (che è l’acronimo di BigScience Large Open-science Open-access Multilingual Language Model). BLOOM ha avuto inizio nel 2021, con lo sviluppo guidato dalla startup di apprendimento automatico Hugging Face , che a maggio ha raccolto 100 milioni di dollari. 

 
Lo sforzo di BigScience beneficia anche di un’ampia gamma di contributori tra cui Megatron di Nvidia e i team Microsoft DeepSpeed , oltre a ricevere supporto dal CNRS , l’Agenzia nazionale francese per la ricerca. Il modello BLOOM è stato costruito e addestrato utilizzando il supercomputer Jean Zay che si trova in Francia. 

BLOOM ha un’architettura simile al modello di linguaggio grande GPT-3 di OpenAI , ma con la differenza fondamentale fondamentale che BLOOM è multilingue.

 “GPT-3 è monolingue e BLOOM è stato progettato fin dall’inizio per essere multilingue, quindi è stato addestrato su diverse lingue e anche per incorporare una quantità significativa di dati del linguaggio di programmazione”, ha detto a VentureBeat Teven Le Scao, ingegnere ricercatore di Hugging Face. “BLOOM supporta 46 linguaggi umani e 13 linguaggi di programmazione, quindi è una differenza molto considerevole.”

Come BLOOM è stato addestrato con modelli di machine learning open source
Lo sforzo di BLOOM ha coinvolto più componenti, inclusa la raccolta di un set di dati di grandi dimensioni e quindi la creazione di un modello di addestramento.

Le Scao ha spiegato che Hugging Face ha utilizzato i progetti open source Megatron di Nvidia e Microsoft DeepSpeed, entrambi sforzi progettati per consentire ai data scientist di addestrare modelli linguistici di grandi dimensioni. Sia Megatron che DeepSpeed ​​sono basati sul framework di apprendimento automatico PyTorch open source. Per BLOOM, i ricercatori hanno sviluppato un fork dei progetti Megatron e DeepSpeed ​​che ha consentito al modello di esaminare tutti i diversi linguaggi.

In termini di BLOOM stesso, il progetto è stato sviluppato all’aperto e utilizza la propria licenza aperta che è modellata sulla licenza Responsible AI .

“Stiamo cercando di definire cosa significa open source nel contesto di grandi modelli di intelligenza artificiale, perché in realtà non funzionano come fa il software”, ha affermato Le Scao.

Ha spiegato che l’obiettivo della licenza per BLOOM era rendere il modello il più aperto possibile, pur mantenendo un certo grado di controllo sui casi d’uso che le organizzazioni hanno per il modello.

In che modo i modelli linguistici di grandi dimensioni si adattano all’elaborazione del linguaggio naturale
I modelli linguistici di grandi dimensioni (LLM) sono un sottoinsieme del campo generale dell’elaborazione del linguaggio naturale (NLP).

 
Le Scao ha affermato che il modello linguistico è come una “unità atomica” per la PNL, fornendo i componenti costitutivi su cui è possibile costruire complesse interazioni e applicazioni di intelligenza artificiale.

Ad esempio, ha notato che non ha senso per un modello di PNL imparare a fare il riassunto e parlare una lingua allo stesso tempo. Le Scao ha detto che un essere umano non impara a parlare inglese e poi scrive un rapporto di ricerca completo allo stesso tempo. In genere ha senso che l’essere umano impari prima a parlare la lingua.

Casi d’uso per modelli multilingua come BLOOM
Ad oggi, la maggior parte dei modelli linguistici dell’IA ha utilizzato l’inglese o il cinese. BLOOM estenderà ora i casi d’uso, in particolare per chi parla francese, spagnolo e arabo, dove prima non era disponibile un LLM aperto.

Oltre a fornire una nuova base per più linguaggi umani parlati, BLOOM potrebbe aprire una nuova era anche per lo sviluppo del codice.

L’uso dell’IA per lo sviluppo del codice è uno spazio relativamente nascente, con Copilot di GitHub, che è diventato generalmente disponibile alla fine di giugno, tra i primi leader. Le Scao si aspetta che, a causa della diversità dei linguaggi di programmazione che BLOOM comprende, aiuterà a abilitare nuove applicazioni per gli sviluppatori.

 
“BLOOM sarà una solida piattaforma per le applicazioni di codifica”, ha affermato Le Scao.

Ora che BLOOM è pronto per l’uso, Le Scao prevede anche che emergano casi d’uso nuovi e inaspettati.

“Questa è la parte divertente, perché abbiamo fatto tutto il duro lavoro per far funzionare BLOOM, e ora tutti possono eseguire qualsiasi esperimento pazzesco vogliono da un potente modello linguistico”, ha detto.

Di ihal