Huawei ha addestrato l’equivalente in lingua cinese di GPT-3
Per la maggior parte dell’anno, il GPT-3 di OpenAI è rimasto tra i più grandi modelli di linguaggio AI mai creati, se non il più grande del suo genere. Tramite un’API, le persone lo hanno utilizzato per scrivere automaticamente e-mail e articoli , riassumere testo, comporre poesie e ricette, creare layout di siti Web e generare codice per l’apprendimento approfondito in Python. Ma GPT-3 ha dei limiti chiave, primo fra tutti il fatto che è disponibile solo in inglese. Il set di dati di 45 terabyte su cui il modello è stato addestrato attingeva esclusivamente da fonti in lingua inglese.
Questa settimana, un team di ricerca della società cinese Huawei ha spiegato in dettaglio quello che potrebbe essere l’equivalente in lingua cinese di GPT-3. Chiamato PanGu-Alpha (PanGu-α stilizzato) , il modello da 750 gigabyte contiene fino a 200 miliardi di parametri – 25 milioni in più rispetto a GPT-3 – ed è stato addestrato su 1,1 terabyte di ebook in lingua cinese, enciclopedie, notizie, social media, e pagine web.
Il team afferma che il modello raggiunge prestazioni “superiori” nelle attività in lingua cinese che comprendono il riepilogo del testo, la risposta alle domande e la generazione di dialoghi. Huawei afferma che sta cercando un modo per consentire agli istituti di ricerca e alle aziende senza scopo di lucro di accedere a modelli PanGu-α pre-addestrati, rilasciando il codice, il modello e il set di dati o tramite API.
Architettura familiare
Nell’apprendimento automatico, i parametri sono la parte del modello che viene appresa dai dati di addestramento storici. In generale, nel dominio del linguaggio, la correlazione tra il numero di parametri e la sofisticazione ha retto molto bene.
I modelli di linguaggio di grandi dimensioni come GPT-3 di OpenAI imparano a scrivere testo simile a quello umano interiorizzando miliardi di esempi dal Web pubblico. Attingendo a fonti come ebook, Wikipedia e piattaforme di social media come Reddit, fanno inferenze per completare frasi e persino interi paragrafi.
Modello linguistico Huawei
Sopra: finestra di dialogo di generazione di PanGu-α per un videogioco.
Simile a GPT-3, PanGu-α è quello che viene chiamato un trasformatore preaddestrato generativo (GPT), un modello di linguaggio che viene prima preaddestrato su testo senza etichetta e poi messo a punto per le attività. Utilizzando il framework MindSpore di Huawei per lo sviluppo e il test, i ricercatori hanno addestrato il modello su un cluster di 2.048 processori Huawei Ascend 910 AI, ognuno dei quali fornisce 256 teraflop di potenza di calcolo.
Per creare il set di dati di formazione per PanGu-α, il team di Huawei ha raccolto quasi 80 terabyte di dati grezzi da set di dati pubblici, incluso il popolare set di dati Common Crawl, nonché il web aperto. Hanno quindi filtrato i dati, rimuovendo i documenti contenenti meno del 60% di caratteri cinesi, meno di 150 caratteri o solo titoli, pubblicità o barre di navigazione. Il testo cinese è stato convertito in cinese semplificato e 724 parole potenzialmente offensive, spam e campioni di “bassa qualità” sono stati filtrati.
Una differenza cruciale tra GPT-3 e PanGu-α è il numero di token su cui i modelli si sono allenati. I token, un modo per separare parti di testo in unità più piccole in linguaggio naturale, possono essere parole, caratteri o parti di parole. Mentre GPT-3 si è allenato su 499 miliardi di token, PanGu-α si è allenato solo su 40 miliardi, suggerendo che è relativamente poco addestrato.
Negli esperimenti, i ricercatori affermano che PanGu-α era particolarmente abile nello scrivere poesie, narrativa e dialoghi, nonché nel riassumere il testo. In assenza di messa a punto sugli esempi, PanGu-α potrebbe generare poesie nelle forme cinesi di gushi e duilian. E dato che una breve conversazione è stata tempestiva, il modello potrebbe fare un brainstorming di un dialogo di follow-up “plausibile”.
Questo non vuol dire che PanGu-α risolva tutti i problemi che affliggono i modelli linguistici delle sue dimensioni. Un focus group incaricato di valutare i risultati del modello ha rilevato che il 10% di essi è “inaccettabile” in termini di qualità. E i ricercatori hanno osservato che alcune delle creazioni di PanGu-α contenevano frasi irrilevanti, ripetitive o illogiche.
Il team di PanGu-α inoltre non ha affrontato alcune delle sfide di vecchia data nella generazione del linguaggio naturale, inclusa la tendenza dei modelli a contraddirsi. Come GPT-3, PanGu-α non riesce a ricordare le conversazioni precedenti e manca della capacità di apprendere concetti attraverso ulteriori conversazioni e di fondare entità e azioni alle esperienze nel mondo reale.
“Il punto principale dell’entusiasmo è l’estensione di questi grandi modelli al cinese”, ha detto a VentureBeat via e-mail Maria Antoniak, ricercatrice sull’elaborazione del linguaggio naturale e data scientist presso la Cornell University. “In altri modi, è simile a GPT-3 sia nei suoi benefici che nei suoi rischi. Come GPT-3, è un modello enorme e può generare risultati plausibili in una varietà di scenari, quindi è entusiasmante che possiamo estenderlo a scenari non inglesi … Costruendo questo enorme set di dati, [Huawei è] in grado di addestrare un modello in cinese in scala simile ai modelli inglesi come GPT-3. Quindi, in sintesi, indicherei il set di dati e il dominio cinese come i fattori più interessanti, piuttosto che l’architettura del modello, anche se addestrare un grande modello come questo è sempre un’impresa ingegneristica “.
Scetticismo
In effetti, molti esperti ritengono che mentre PanGu-α e modelli simili di grandi dimensioni sono impressionanti per quanto riguarda le loro prestazioni, non muovono la palla in avanti sul lato di ricerca dell’equazione. Sono progetti di prestigio che dimostrano la scalabilità delle tecniche esistenti, piuttosto, o che fungono da vetrina per i prodotti di un’azienda.
“Penso che la migliore analogia sia con un paese ricco di petrolio che è in grado di costruire un grattacielo molto alto”, ha detto Guy Van den Broeck, assistente professore di informatica alla UCLA, in una precedente intervista a VentureBeat. “Certo, un sacco di soldi e sforzi ingegneristici sono necessari per costruire queste cose. E ottieni lo “stato dell’arte” nella costruzione di edifici alti. Ma non vi è alcun progresso scientifico di per sé … Sono sicuro che gli accademici e altre aziende saranno felici di utilizzare questi grandi modelli linguistici nelle attività a valle, ma non credo che cambino radicalmente il progresso nell’IA “.
Anche il documento GPT-3 di OpenAI ha accennato ai limiti del semplice lancio di più risorse di calcolo sui problemi nel linguaggio naturale. Sebbene GPT-3 completi le attività dalla generazione di frasi alla traduzione tra le lingue con facilità, non riesce a eseguire molto meglio del caso in un test – inferenza del linguaggio naturale antagonista – che gli impegna a scoprire le relazioni tra le frasi.
Il team di PanGu-α non afferma che il modello supera altri bloccanti in linguaggio naturale, come rispondere correttamente ai problemi di matematica o rispondere alle domande senza parafrasare i dati di allenamento . Più problematicamente, i loro esperimenti non hanno sondato PanGu-α per i tipi di bias e tossicità trovati in modelli come GPT-3. Lo stesso OpenAI osserva che GPT-3 colloca parole come “cattivo” o “succhiato” vicino a pronomi femminili e “Islam” vicino a termini come “terrorismo”. Un documento separato dal dottorato della Stanford University. il candidato e fondatore di Gradio Abubakar Abid descrive in dettaglio le tendenze ingiuste del testo generato da GPT-3, come associare la parola “ebrei” con “denaro”.
Impatto di carbonio
Tra gli altri, il principale ricercatore di intelligenza artificiale Timnit Gebru ha messo in dubbio la saggezza di costruire modelli linguistici di grandi dimensioni, esaminando chi ne trae vantaggio e chi è svantaggiato. Un documento scritto da Gebru all’inizio di quest’anno mette in luce l’impatto dell’impronta di carbonio dei grandi modelli linguistici sulle comunità minoritarie e la tendenza di tali modelli a perpetuare il linguaggio offensivo, l’incitamento all’odio, le microaggressioni, gli stereotipi e altri linguaggi disumanizzanti rivolti a gruppi specifici di persone.
In particolare, sono stati evidenziati gli effetti sull’ambiente dell’IA e del modello di apprendimento automatico . Nel giugno 2020, i ricercatori dell’Università del Massachusetts ad Amherst hanno pubblicato un rapporto in cui stima che la quantità di energia richiesta per l’addestramento e la ricerca di un determinato modello comporta le emissioni di circa 626.000 libbre di anidride carbonica , equivalenti a quasi 5 volte le emissioni nel corso della vita del macchina americana media.
Sebbene l’impatto ambientale della formazione di PanGu-α non sia chiaro, è probabile che l’impronta del modello sia sostanziale, almeno rispetto ai modelli linguistici una frazione delle sue dimensioni. Come hanno scritto i coautori di un recente articolo del MIT, le prove suggeriscono che l’apprendimento profondo si sta avvicinando ai limiti computazionali. “Non prevediamo che i requisiti computazionali impliciti dagli obiettivi … I costi hardware, ambientali e monetari sarebbero proibitivi”, hanno detto i ricercatori. “Raggiungere questo obiettivo in modo economico richiederà hardware più efficiente, algoritmi più efficienti o altri miglioramenti in modo tale che l’impatto netto sia un guadagno così grande”.
Antoniak dice che è una questione aperta se i modelli più grandi siano l’approccio giusto nel linguaggio naturale. Sebbene i migliori punteggi delle prestazioni sulle attività attualmente provengano da grandi set di dati e modelli, è incerto se il modello di scaricare enormi quantità di dati nei modelli sarà redditizio. “L’attuale struttura del campo è incentrata sulle attività, in cui la comunità si riunisce per cercare di risolvere problemi specifici su set di dati specifici”, ha affermato. “Questi compiti sono generalmente molto strutturati e possono avere i loro punti deboli, quindi mentre aiutano il nostro campo ad andare avanti in qualche modo, possono anche limitarci. I modelli di grandi dimensioni si comportano bene in questi compiti, ma se questi compiti possono alla fine portarci a una vera comprensione del linguaggio è in discussione “.
Direzioni future
A parte le scelte del team PanGu-α, potrebbero non avere molto tempo per stabilire standard che affrontino il potenziale impatto del modello linguistico sulla società. Un documento pubblicato dai ricercatori di OpenAI e della Stanford University ha scoperto che gli sviluppatori di modelli di linguaggio di grandi dimensioni come Huawei, OpenAI e altri possono avere solo un vantaggio da sei a nove mesi fino a quando altri non possono riprodurre il loro lavoro. EleutherAI, una comunità di ricercatori di machine learning e data scientist, prevede di rilasciare un’implementazione open source di GPT-3 ad agosto.
I coautori dell’OpenAI e del documento di Stanford suggeriscono modi per affrontare le conseguenze negative dei modelli linguistici di grandi dimensioni, come l’emanazione di leggi che richiedono alle aziende di riconoscere quando il testo viene generato dall’intelligenza artificiale, forse sulla falsariga della legge sui bot della California . Altre raccomandazioni includono:
Le conseguenze della mancata esecuzione di uno qualsiasi di questi passaggi potrebbero essere catastrofiche a lungo termine. In una recente ricerca , il Centro sul terrorismo, l’estremismo e l’antiterrorismo del Middlebury Institute of International Studies ‘afferma che GPT-3 potrebbe generare in modo affidabile testo “informativo” e “influente” che potrebbe radicalizzare le persone in ideologie e comportamenti violenti di estrema destra. E i modelli linguistici tossici utilizzati nella produzione potrebbero avere difficoltà a comprendere aspetti delle lingue e dei dialetti minoritari. Ciò potrebbe costringere le persone che utilizzano i modelli a passare a un “inglese allineato con i bianchi”, ad esempio, per garantire che i modelli funzionino meglio per loro, il che potrebbe scoraggiare i parlanti di minoranza dal interagire con i modelli per cominciare.
Dati i legami di Huawei con il governo cinese, c’è anche la preoccupazione che modelli come PanGu-α possano essere utilizzati per discriminare i popoli emarginati, compresi gli uiguri che vivono in Cina. Un rapporto del Washington Post ha rivelato che Huawei ha testato un software di riconoscimento facciale in grado di inviare “allarmi uiguri” automatizzati alle autorità governative quando i suoi sistemi di telecamere hanno identificato i membri del gruppo di minoranza.
Abbiamo contattato Huawei per un commento e aggiorneremo questo articolo una volta che avremo ricevuto risposta.
“Gli esseri umani sono anche pieni di pregiudizi e tossicità, quindi non credo che imparare come un essere umano sia una soluzione a questi problemi”, ha detto Antoniak. “Gli studiosi pensano che forse dovremmo cercare di modellare meglio il modo in cui gli esseri umani imparano la lingua – [almeno] in relazione alla comprensione del linguaggio, non alla tossicità. Sarebbe possibile capire il linguaggio ed essere ancora molto tossico, dopotutto. “