Microsoft e NVIDIA testano le acque per un modello di linguaggio generativo su larga scala con risultati promettenti
Riteniamo che i nostri risultati e le nostre scoperte possano aiutare, plasmare e facilitare la ricerca futura nella pre-formazione di base su larga scala.
Grazie all’apprendimento auto-supervisionato, alle tecniche a scatto ridotto, a scatto zero e all’ottimizzazione, le dimensioni dei modelli linguistici crescono in modo significativo ogni giorno che passa, richiedendo hardware, software e algoritmi ad alte prestazioni per consentire l’addestramento di modelli di grandi dimensioni .
Adottando un approccio collaborativo, Microsoft e NVIDIA si sono unite per formare uno dei più grandi modelli linguistici monolitici basati su trasformatore con 530 miliardi di parametri, Megatron-Turing NLG (MT-NLG). Il duo ha affermato di aver stabilito risultati allo stato dell’arte, insieme all’accuratezza SOTA nell’elaborazione del linguaggio naturale (NLP), adattandosi alle attività a valle tramite tecniche di messa a punto, zero e poche riprese.
In un documento di ricerca ” Utilizzo di DeepSpeed e Megatron per addestrare Megatron-Turing NLG 530B, un modello di linguaggio generativo su larga scala “, i ricercatori di NVIDIA e Microsoft hanno discusso le sfide nell’addestramento delle reti neurali su larga scala. Hanno presentato strategie di parallelismo 3D e infrastrutture hardware che hanno consentito un addestramento efficiente di MT-NLG.
“La formazione di modelli linguistici di grandi dimensioni è difficile da stabilizzare e la sperimentazione può essere costosa, pertanto abbiamo documentato ampiamente le nostre configurazioni di formazione e i set di dati per facilitare la ricerca futura”, hanno condiviso i ricercatori.
Oltre a questo, hanno anche analizzato i pregiudizi sociali esibiti da MT-NLG, oltre a esaminare vari fattori che possono influenzare l’apprendimento contestuale, facendo emergere la consapevolezza di alcuni limiti dell’attuale generazione di modelli linguistici di grandi dimensioni. “Riteniamo che i nostri risultati e le nostre scoperte possano aiutare, modellare e facilitare la ricerca futura nella preformazione di base su larga scala”, hanno aggiunto i ricercatori.
Scatenare la potenza dei modelli linguistici su larga scala
Nell’ottobre dello scorso anno, il duo ha introdotto MT-NLG . Il modello del linguaggio SOTA è basato sui modelli di trasformatore DeepSpeed di Microsoft e Megatron di NVIDIA. Ha un numero di parametri 3 volte superiore rispetto ai modelli più grandi esistenti, inclusi GPT-3 (175 miliardi di parametri), Turing NLG (17 miliardi di parametri), Meatron-LM (8 miliardi di parametri) e il più recente GPT-NeoX di EleutherAI con 20 miliardi di parametri addestrati su GPU CoreWeave .
Nell’ambito dello sforzo di vendita di Microsoft AI, il team di DeepSpeed ha studiato le applicazioni e le ottimizzazioni dei modelli per una combinazione di modelli esperti (MoE). Si dice che questi modelli riducano i costi di formazione e inferenza per i modelli di grandi dimensioni, consentendo al contempo di addestrare e servire i modelli di prossima generazione sulla tecnologia odierna.
In confronto, Switch Transformer di Google (1,6 trilioni di parametri) e Wu Dao 2.0 cinese (1,75 trilioni di parametri) sono i più grandi modelli di linguaggio del trasformatore nello spazio. Tuttavia, quando si tratta di modelli linguistici su larga scala e casi d’uso, Microsoft ha migliorato il gioco. Ha stretto una partnership con OpenAI, acquisendo il diritto esclusivo di utilizzare i suoi modelli linguistici GPT-3 per casi d’uso commerciale .
GitHub di proprietà di Microsoft lo scorso anno ha rilasciato GitHub Copilot , che è alimentato da Codex, un sistema di intelligenza artificiale creato da OpenAI che è stato addestrato su una selezione di lingua inglese e codice sorgente da fonti aperte, incluso il codice nei repository pubblici su GitHub.
C’è dell’altro
MT-NLG con 530 miliardi di parametri non è il modello linguistico più grande sviluppato da NVIDIA e Microsoft. L’anno scorso, Microsoft ha annunciato un modello più grande e più potente con un trilione (1T) di parametri. Questo modello da 1 T è più grande e ha i numeri più alti per ogni cifra di prestazioni, inclusi i tera-FLOP raggiunti, le dimensioni del batch, il numero di GPU, ecc.
Evidenziazione del modello linguistico (in rosso) con mille miliardi di parametri sviluppati da NVIDIA e Microsoft (Fonte: GitHub )
Questo ci porta alla domanda: se il modello linguistico con un trilione è più grande di ogni misura, come può MT-NLG con 530 miliardi di parametri essere il più grande ?
A questo, NVIDIA aveva affermato che il modello di un trilione di lingua non è mai stato “addestrato alla convergenza “, un termine utilizzato per un modello che è stato completamente sviluppato e può essere utilizzato per eseguire l’inferenza e una fase in cui vengono fatte le previsioni. Invece, questo particolare modello ha attraversato un numero limitato di cicli di allenamento, noti anche come epoche, che non portano alla convergenza.
MT-NLG con 530 miliardi di parametri è ancora un progetto di ricerca tra NVIDIA e Microsoft e deve ancora vedere la luce come prodotto commerciale. Dai un’occhiata alla pagina del catalogo di NVIDIA per altri modelli popolari messi a disposizione. Include modelli linguistici basati su trasformatori e altre reti neurali per classificazione, traduzione linguistica, sintesi vocale, rilevamento di oggetti, motori di raccomandazione, analisi del sentimento, ecc.