Baidu lancia il più grande modello di generazione di dialoghi al mondo con 11 miliardi di parametri
PLATO-XL è addestrato su un cluster GPU ad alte prestazioni con 256 schede GPU NVIDIA Tesla V100 32G.
All’inizio di questa settimana, il gigante cinese di Internet Baidu ha rilasciato PLATO-XL, un modello di generazione di dialoghi pre-addestrato con un massimo di 11 miliardi di parametri. Adotta l’architettura di un trasformatore unificato con un’elevata efficienza di calcolo e parametri.
PLATO-XL effettua pre-formazione consapevole multi-parte per distinguere meglio le informazioni caratteristiche nella conversazione sui social media. Di conseguenza, ottiene prestazioni superiori rispetto ad altri approcci sia in inglese che in cinese. Inoltre, PLATO-XL ha efficacemente ridotto il fenomeno dell’incoerenza nelle conversazioni a più turni, grazie al pre-training consapevole multi-parte.
Presto, la società prevede di rilasciare il codice sorgente su GitHub. “Rilasceremo il nostro codice sorgente insieme al modello inglese su GitHub, sperando di facilitare la ricerca di frontiera nella generazione di dialoghi”, hanno affermato i ricercatori di Baidu.
Modelli linguistici vs modelli di generazione di dialoghi
L’efficienza del paradigma di pre-addestramento è stata ampiamente riconosciuta nell’elaborazione del linguaggio naturale ( NLP ) – come Switch Transformer, GPT-3, BERT, XLNet, RoBERTa, LaMDA , ecc. – dove vengono addestrati modelli di trasformatori su larga scala con massicci testi in chiaro. Tuttavia, la maggior parte di questi modelli di linguaggio segue la tendenza all’ingrandimento delle dimensioni del modello , del set di dati o della quantità di calcolo utilizzata per l’addestramento.
Più specificamente, nel caso del modello GPT-3 di OpenAI con 175 miliardi di parametri, il modello linguistico mostra forti capacità di apprendimento zero-shot senza una messa a punto specifica per attività sulle attività a valle. È qui che entra in gioco il modello di generazione del dialogo. Rispetto ai modelli linguistici generali, i modelli di generazione del dialogo sono generalmente pre-addestrati con conversazioni di tipo umano raccolte da piattaforme di social media: Reddit, Twitter, ecc.
Alcuni dei modelli di generazione di dialoghi popolari includono DialogoGPT di Microsoft , Meena di Google , Blender di Facebook e PLATO-2 di Baidu . In pochissimo tempo, questi modelli sono stati anche scalati fino a miliardi di parametri e hanno sfruttato molte più conversazioni sui social media per il pre-allenamento. Tuttavia, nella generazione del dialogo, manca ancora una chiara conclusione sulla correlazione tra la scala del modello e la qualità della conversazione, insieme ad altre limitazioni come pregiudizi ingiusti, informazioni fuorvianti, incapacità di apprendimento continuo, ecc.
Si spera che il PLATO-XL lanciato di recente continui a migliorare la qualità della conversazione su correttezza e fattualità.
Ad esempio, DialoGPT ha tre dimensioni del modello: 117 milioni, 345 milioni e 762 milioni di parametri. Di questi, si dice che i 345 milioni abbiano ottenuto la migliore performance nelle loro valutazioni. Allo stesso modo, nel caso di Blender , i 2,7 miliardi di parametri hanno ottenuto prestazioni migliori rispetto a quelli con 9,4 miliardi di parametri.
I ricercatori di Baidu ritengono che la qualità della conversazione potrebbe trarre vantaggio dalla scala del modello ingrandita con un design pre-allenamento appropriato. PLATO-XL si inserisce perfettamente nell’equazione. Oltre alle conversazioni di dominio aperto, il modello include due attività di conversazione comuni: il dialogo basato sulla conoscenza e la conversazione orientata al compito.
Inoltre, i ricercatori hanno anche esplorato la capacità di PLATO-XL come modello base dell’IA conversazionale . È interessante notare che i loro esperimenti hanno indicato che PLATO-XL potrebbe superare altri modelli di generazione di dialoghi in più attività di conversazione.
PLATO-XL adotta l’architettura unificata che consente la modellazione simultanea del dialogo, della comprensione e della generazione di risposte, che è più efficiente dei parametri. Inoltre, un meccanismo flessibile di maschera di auto-attenzione consente la codifica bidirezionale della cronologia dei dialoghi e la decodifica unidirezionale delle risposte. Inoltre, l’ architettura del trasformatore unificato si dimostra efficiente nell’addestramento alla generazione del dialogo.
Data la lunghezza variabile dei campioni di conversazione, molti calcoli non validi sono causati dal riempimento nel processo di addestramento. Grazie al trasformatore unificato, può migliorare notevolmente l’efficienza dell’addestramento attraverso l’efficace smistamento dei campioni in ingresso.
Una panoramica della rete PLATO-XL (Fonte: Baidu Research )
PLATO-XL, con 11 miliardi di parametri, include due modelli di dialogo: cinese e inglese. Inoltre, nel pre-allenamento vengono utilizzati oltre 100 miliardi di token di dati. Il modello di dialogo è implementato su PaddlePaddle, una piattaforma di deep learning sviluppata da Baidu . Per addestrare un modello così grande, PLATO-XL ha adottato le tecniche del checkpoint del gradiente e del parallelismo dei dati condivisi fornite da FleetX, la libreria di addestramento distribuita di PaddlePaddle. È addestrato su un cluster GPU ad alte prestazioni con 256 schede GPU NVIDIA Tesla V100 32G.
Riassumendo
Con questo ultimo sviluppo, PLATO-2 di Baidu è stato aggiornato a PLATO-XL, con oltre dieci miliardi di parametri, rendendolo il più grande modello di generazione di dialoghi in cinese e inglese al mondo. I ricercatori ritengono che raggiunga prestazioni superiori nella conversione di dominio aperto e aumenti l’aspettativa di ciò che potrebbero fare modelli di dialogo di centinaia di miliardi o addirittura trilioni di parametri: Blender, DialogoGPT, EVA, PLATO-2, ecc. Inoltre, PLATO-XL dimostra prestazioni significativamente migliori rispetto agli attuali chatbot commerciali tradizionali.
Inoltre, PLATO-XL di Baidu espande nuovi orizzonti nelle conversazioni di dominio aperto, che è considerato uno dei compiti più impegnativi nella PNL. Presentato come il più grande modello di pre-formazione per il dialogo inglese e cinese, PLATO-XL ha raggiunto un nuovo livello di coerenza e concretezza conversazionale: un passo avanti verso il futuro dell’apprendimento umano e delle capacità di conversazione.