Il framework GLM-130B è un modello linguistico bilingue inglese-cinese di grandi dimensioni, con più di 130 miliardi di parametri, progettato per generare testo con una precisione notevole. Rappresenta un passo avanti nel rendere open source modelli linguistici di questa portata e affronta le sfide ingegneristiche legate all’addestramento di modelli così ampi, quali la divergenza e gli incrementi delle perdite.
Questo articolo esamina il GLM-130B, illustrando come esso apra la strada a un addestramento efficace di modelli linguistici massicci. Verranno analizzati i dettagli del suo funzionamento e design, che migliorano sia l’efficienza che la stabilità. Le prove iniziali mostrano che il GLM-130B supera il GPT-3 in inglese, e questo articolo esplora le ragioni di questi risultati consistenti e precisi.
I modelli linguistici di grandi dimensioni, come il GPT-3, hanno dimostrato di funzionare bene in contesti di pochi-shot e zero-shot, ma il loro addestramento non è stato completamente trasparente. Il GLM-130B si propone come un modello accurato e open source per oltrepassare questo limite. Durante lo sviluppo, il team ha affrontato numerose sfide tecniche, dal pre-addestramento alla stabilità e alla convergenza.
Il GLM-130B è un modello bidirezionale e bilingue, con 130 miliardi di parametri addestrati su 400 miliardi di token. La sua architettura si distacca dall’approccio GPT, adottando l’algoritmo GLM per unire i vantaggi dell’attenzione bidirezionale e l’obiettivo di riempimento degli spazi vuoti autoregressivi. La tabella di confronto mostra come il GLM-130B si misura con altri modelli linguistici di grandi dimensioni.
L’articolo prosegue discutendo come il GLM-130B migliori le prestazioni riducendo al contempo il bias e la tossicità della generazione, posizionandosi oltre altri modelli. Si sottolinea anche come sia stato progettato per essere accessibile a più sviluppatori, con requisiti GPU ridotti grazie all’uso di una quantizzazione INT4, che mantiene alte le prestazioni con un degrado minimo.
L’architettura del GLM-130B è approfondita, evidenziando come il suo design possa influenzare l’inductive bias e il rendimento del modello. Si differenzia per l’uso dell’attenzione bidirezionale e per l’approccio al riempimento degli spazi vuoti, con due distinti token di mascheramento per supportare sia la generazione che la comprensione dei dati.
L’addestramento del GLM-130B incorpora anche l’apprendimento multi-task e strategie di corruzione innovative, mirate a migliorare le capacità di trasferimento di compiti in contesti zero-shot. Infine, il framework impiega tecniche di parallelismo 3D per ottimizzare l’addestramento e affronta la sfida di equilibrare stabilità ed efficienza con l’uso di formati in virgola mobile a precisione mista.
Il GLM-130B viene valutato attraverso una varietà di benchmark in inglese e cinese, mostrando risultati promettenti che superano modelli esistenti come ERNIE Titan 3.0 in cinese. Concludendo, il GLM-130B è presentato come un contributo significativo alla ricerca LLM, con la speranza di offrire una migliore comprensione dell’efficienza, stabilità e obiettivi di pre-addestramento dei grandi modelli linguistici.