GPT-2 vs modello in lingua cinese: come è stato addestrato quest’ultimo

Questa startup con sede a Bangalore utilizza l’IA generativa per creare video dal testo

In un recente sviluppo, i ricercatori cinesi hanno creato un gigantesco modello di linguaggio che può essere paragonato a GPT-2 in termini di numero di parametri su cui è addestrato. Il modello linguistico sviluppato dai ricercatori della Tsinghua University e dell’Accademia di intelligenza artificiale di Pechino si è allenato su circa 2,6 miliardi di parametri con 100 GB di dati cinesi.

Per impostare il contesto, GPT-2 è stato addestrato su circa 1,5 miliardi di parametri. Il modello linguistico pre-addestrato cinese o CPM, come viene chiamato il modello linguistico, è disponibile in diverse dimensioni, mostrando un aumento delle capacità con un aumento delle dimensioni del modello. I ricercatori hanno affermato che si tratta del più grande modello linguistico pre-addestrato cinese, in grado di eseguire un’ampia gamma di compiti di PNL. Sebbene i dati da 100 GB siano relativamente bassi rispetto ai dati di addestramento da 570 GB di GPT -3, i risultati sono stati abbastanza soddisfacenti ei ricercatori mirano a ottenere una maggiore scalabilità in futuro.

La tecnologia alla base del CPM e come si differenzia dai modelli GPT
Sebbene GPT-3 sia stato un risultato enorme per i ricercatori e abbia visto l’applicabilità in vari campi, l’applicazione di GPT-3 per affrontare le attività di PNL cinese è rimasta una grande sfida. È perché il corpus formativo di GPT-3 è principalmente inglese – quasi il 93% – ei parametri non sono disponibili pubblicamente.

Per superare questa sfida primaria, i ricercatori hanno iniziato a formarsi sui dati cinesi per renderli più rilevanti per loro. Con i loro continui sforzi, i ricercatori sono riusciti a facilitare diversi compiti di PNL cinese: conversazione, comprensione della lingua, generazione di saggi, per citarne alcuni. In effetti, mostra che CPM raggiunge ottime prestazioni nell’impostazione di pochi colpi, incluso l’apprendimento zero-colpo.

Se confrontato con GPT-3 , su attività come risposta a domande , riepilogo, conversazione, calcoli informatici di base, scrittura e altro, le prestazioni di CPM sono piuttosto notevoli.

I ricercatori cinesi hanno esplorato il lavoro precedente sui modelli linguistici pre-addestrati cinesi espandendo il vocabolario cinese e riprogettando la strategia di formazione. Hanno costruito un nuovo vocabolario di sotto-parole e regolato la dimensione del lotto di addestramento a 3, 072 per un addestramento del modello più stabile.

Spiegando il loro lavoro sulla costruzione del vocabolario, i ricercatori hanno affermato che i lavori precedenti su modelli cinesi pre-addestrati di solito adottano il vocabolario delle parole secondarie di BERT -Cinese, che divide il testo di input in una sequenza a livello di carattere. Tuttavia, le parole cinesi di solito contengono diversi caratteri e alcuni significati semantici importanti delle parole andrebbero persi nella sequenza a livello di carattere. “Per risolvere questo problema, costruiamo un nuovo vocabolario di sotto-parole, contenente sia parole che caratteri”, hanno osservato i ricercatori.

In termini di strategia di addestramento, hanno adottato un lotto di grandi dimensioni per rendere più stabile l’addestramento del modello. Rispetto alla dimensione del batch utilizzata in GPT-3 che era di 1 milione di token, la dimensione del batch è due volte maggiore con 3 milioni di token. Inoltre, i ricercatori hanno notato che per il modello più grande, che non può essere memorizzato in una singola GPU durante l’addestramento, hanno suddiviso il modello tra le GPU lungo la dimensione della larghezza per rendere disponibile l’addestramento su larga scala e ridurre il trasferimento di dati tra i nodi.

Sebbene i ricercatori abbiano ottenuto finora risultati soddisfacenti, intendono esplorare ulteriormente la potenza dei modelli pre-addestrati su larga scala aggiungendo più dati di formazione per includere la diversità e aumentare le dimensioni del modello. Hanno anche in programma di ottimizzare il quadro di formazione, come lo schema di trasferimento dei dati tra diversi nodi, per accelerare ulteriormente il processo di formazione. “Per i dati di testo, aggiungeremo un corpus multilingue per formare un modello linguistico multilingue su larga scala incentrato sulla Cina”, hanno affermato.

Sebbene il CPM sia attualmente utilizzato solo per scopi tecnici e scientifici, ci sono opinioni di esperti che, a differenza di GPT-3 , il CPM non si concentra attualmente sui pregiudizi di questo modello. Detto questo, la ricerca è uscita appena sei mesi dopo la pubblicazione dell’articolo su GPT-3, il che è piuttosto notevole e mira a raggiungere una maggiore efficienza nel prossimo futuro.

Di ihal