Dietro il progetto BigScience di HuggingFace che raccoglie in crowdsourcing la ricerca su modelli linguistici di grandi dimensioni
Aziende come Google e Facebook stanno implementando modelli linguistici di grandi dimensioni (LLM) per la traduzione e la moderazione dei contenuti. Nel frattempo, GPT-2 e GPT-3 di OpenAI sono i modelli linguistici più potenti in grado di scrivere passaggi di testo eccezionalmente convincenti in una gamma di stili diversi (così come composizioni musicali complete e finire di scrivere il codice del computer). Anche le start-up stanno creando dozzine di propri prodotti e servizi LLM basati sui modelli creati da questi giganti della tecnologia.
Molto presto, tutte le nostre interazioni digitali saranno probabilmente filtrate attraverso LLM, il che è destinato ad avere un impatto fondamentale sulla nostra società.
Tuttavia, nonostante la proliferazione di questa tecnologia, vengono fatte pochissime ricerche sulle preoccupazioni ambientali, etiche e sociali che solleva. Oggi, i grandi giganti della tecnologia detengono tutto il potere nel determinare come si sviluppa questa tecnologia trasformativa perché la ricerca sull’intelligenza artificiale è costosa e sono quelli con le tasche profonde, dando loro il potere di censurare o ostacolare la ricerca che li mette in cattiva luce.
Pericoli dei LLM
Ci sono una serie di preoccupazioni che circondano la rapida crescita degli LLM che molti leader nella comunità dell’IA ritengono siano poco studiati dalle grandi aziende tecnologiche. Questi includono:
I dati utilizzati per costruire questi modelli sono spesso di origine non etica e non consensuale.
I modelli sono conversazionalmente fluidi e credibilmente umani, ma non capiscono cosa stanno dicendo e spesso diffondono razzismo, sessismo, autolesionismo e altri punti di vista pericolosi.
Molte delle funzionalità avanzate degli LLM oggi sono disponibili solo in inglese , il che rende pericolosa la loro applicazione per la moderazione dei contenuti nei paesi non di lingua inglese.
Quando le notizie false, i discorsi di odio e le minacce di morte non vengono moderati dal set di dati, vengono utilizzati come dati di addestramento per costruire la prossima generazione di LLM, consentendo la continuazione (o il peggioramento) dei modelli linguistici tossici su Internet.
Cos’è il progetto BigScience?
Il progetto BigScience , guidato da Hugging Face , è un laboratorio di ricerca della durata di un anno che ha preso ispirazione da precedenti schemi di creazione scientifica (come il CERN nella fisica delle particelle) al fine di combattere la mancanza di ricerche condotte su modelli e set di dati multilingue. I leader del progetto non credono di poter mettere una pausa sul clamore che circonda i grandi modelli linguistici, ma sperano di spingerlo in una direzione che lo renda più vantaggioso per la società.
L’idea è che i partecipanti al programma (che sono tutti lì come volontari) indaghino le capacità ei limiti di questi set di dati e modelli da tutte le angolazioni. La domanda centrale a cui cercano di rispondere è come e quando gli LLM dovrebbero essere sviluppati e implementati in modo da poter godere dei loro benefici senza dover affrontare le sfide che pongono.
Per fare ciò, il gruppo di ricercatori mira a creare un modello linguistico di rete neurale multilingue molto ampio e un set di dati di testo multilingue molto ampio su un supercomputer che è stato fornito loro dal governo francese.
In che modo BigScience sta facendo un lavoro migliore rispetto alle aziende tecnologiche?
A differenza della ricerca condotta presso le aziende tecnologiche, dove i ricercatori hanno principalmente competenze tecniche, BigScience ha coinvolto ricercatori da una gamma molto più ampia di paesi e discipline. Hanno ricercatori specializzati in intelligenza artificiale, PNL, scienze sociali, diritto, etica e politica pubblica, al fine di rendere il processo di costruzione del modello un evento veramente collaborativo.
Ad oggi, il programma è composto da 600 ricercatori provenienti da 50 paesi e più di 250 istituzioni. Sono stati tutti divisi in una dozzina di gruppi di lavoro, ognuno dei quali affronta diversi aspetti dello sviluppo e dell’indagine del modello: un gruppo sta misurando l’impatto ambientale del modello, uno sta sviluppando e valutando la “multilinguismo del modello”, un altro sta sviluppando modi responsabili per reperire dati di formazione , e un altro ancora sta trascrivendo archivi radiofonici storici o podcast.
Se le cose funzionano, il progetto potrebbe ispirare le persone all’interno del settore (molte delle quali sono coinvolte nel progetto) a incorporare alcuni di questi approcci nella propria strategia LLM e creare nuove norme all’interno della comunità della PNL.