Il GPT-3 di OpenAI non è così aperto ha un cugino open source GPT-J, della casa di EleutherAI . Controlla il codice sorgente sul notebook Colab e una demo web gratuita qui . 

EleutherAI, fondata da Connor Leahy, Leo Gao e Sid Black, è un gruppo di ricerca focalizzato sull’allineamento dell’IA, il ridimensionamento e la ricerca sull’IA open-source. Nel marzo 2021, la società ha rilasciato due modelli GPT-Neo con rispettivamente 1,3 miliardi e 2,7 miliardi di parametri. 

 

Microsoft ha l’accesso esclusivo al codice sorgente di GPT-3 come parte di un accordo più ampio tra le due società. Microsoft ha investito 1 miliardo di dollari . È interessante notare che GPT-1 e GPT-2 di OpenAI sono progetti open source.

Eleuthera AI
Il progetto EleutherAI è iniziato il 3 luglio 2020, con l’obiettivo di replicare i modelli della famiglia OpenAI GPT . La stella polare del gruppo di ricerca è replicare GPT-3 175 miliardi di parametri e “rompere il monopolio OpenAI-Microsoft” su modelli linguistici basati su trasformatori.

Tuttavia, per costruire modelli così potenti, è necessaria una quantità enorme di potenza di calcolo. EleutherAI è attualmente supportato da Google e CoreWeave (provider di cloud computing). CoreWeave ha offerto elaborazione GPU ad alte prestazioni per sviluppare modelli futuri con GPT-NeoX. 

GPT-NeoX è un codice in fase di sviluppo basato su Megatron-LM e DeepSpeed ed è progettato per le GPU. Il suo GPT-Neo, d’altra parte, è un codebase costruito su Mesh Tensorflow , progettato per l’allenamento su TPU.

Oltre a questo, il gruppo di ricerca ha creato 825 gigabyte (GB) di set di dati di modellazione del linguaggio chiamato The Pile , a cura di un set di set di dati tra cui arXiv, GitHub, Wikipedia, StackExchange, HackerNews, ecc. 

Ora ha lanciato GPT-J, uno dei modelli più grandi che EleutherAI ha rilasciato fino ad oggi. GPT-J è un modello di 6 miliardi di parametri addestrato su The Pile , paragonabile in termini di prestazioni alla versione GPT-3 di dimensioni simili: 6,7 miliardi di parametri. “Poiché GPT-J è stato addestrato su dati GitHub (7 percento) e StackExchange (5 percento), è migliore di GPT3 175B nella scrittura del codice . Tuttavia, in altri compiti, è significativamente peggiore”, ha scritto l’esperto di intelligenza artificiale Alberto Romero, nel suo blog.

GPT-J: trasformatore LM basato su JAX (mesh) 
Il nome GPT-J deriva dall’uso del Transformer LM basato su JAX ( Mesh ), sviluppato dai ricercatori volontari di EleutherAI Ben Wang e Aran Komatsuzaki. JAX è una libreria Python ampiamente utilizzata negli esperimenti di apprendimento automatico . 

GPT-J è il Transformer LM pubblicamente disponibile con le migliori prestazioni in termini di prestazioni zero-shot su varie attività di downstreaming. 

Komatsuzaki ha affermato che consente un’inferenza più flessibile e veloce rispetto alle controparti TensorFlow e TPU. Più di ogni altra cosa, il progetto ha richiesto una quantità di tempo sostanzialmente inferiore rispetto ad altri modelli su larga scala. JAX, xmap e TPU sono il giusto set di strumenti per lo sviluppo rapido di modelli su larga scala, ha aggiunto.

Il design del nostro modello e la scelta degli iperparametri seguono da vicino quelli di 6.7B GPT-3 con alcune differenze, tra cui: 

Il modello è stato addestrato su 400 miliardi di token dal set di dati The Pile con testo da 800 GB.
L’attenzione efficiente (come la finestra lineare, locale o scorrevole, ecc.) non è stata utilizzata per semplicità, poiché non avrebbe migliorato significativamente il “rendimento” a questa scala.
La dimensione di ogni “testa di attenzione” è stata impostata su 256, che è più di quella di GPT-3 di dimensioni comparabili. “Ciò ha notevolmente migliorato la ‘rendita’ con un degrado minimo delle prestazioni”, ha affermato Komatsuzaki. 
Il team ha apportato due piccoli miglioramenti all’architettura per GPT-J– Rotary embedding per prestazioni leggermente migliori e ha posizionato il livello di attenzione e il livello di feedforward in parallelo per ridurre la comunicazione. 

Prestazione
Come mostrato nella tabella sottostante, le prestazioni zero-shot sono alla pari con GPT-3 di dimensioni comparabili e il divario di prestazioni di GPT-3 è più vicino rispetto ai modelli GPT-Neo. 
I migliori documenti di ricerca sull’apprendimento automatico pubblicati nel 2020
 

Inoltre, il throughput dei 6 miliardi di GPT-for training (151K token/s) è più veloce dei 2,7 miliardi di GPT-Neo (148k token/s) sullo stesso hardware (pod TPU v3-256), mostrando un miglioramento di quasi il 125% nell’efficienza.

L’hardware ha un “massimo teorico” di 13,4 PFLOP (operazioni Peta in virgola mobile al secondo) e GPT-J ha raggiunto 5,4 PFLOP come misurato nel documento GPT-3 (escludendo il calcolo dell’attenzione e ignorando i compromessi della memoria di calcolo come il checkpoint del gradiente) . “Se si prendono in considerazione questi fattori aggiuntivi, viene utilizzato circa il 60% del massimo teorico”, ha affermato Komatsuzaki, affermando che GPT-J ha impiegato circa cinque settimane con il pod TPU v3-256.  

GPT-J contro GPT-3 
Max Woolf, un data scientist di BuzzFeed, ha recentemente testato le capacità di codifica di GPT-J. Ha detto che ha eseguito GPT-J contro i prompt di test che aveva usato per testare GPT-3 un anno fa. “L’eccezione è la generazione del codice, in cui GPT-J ha funzionato molto bene e GPT-3 ha funzionato molto male”, ha scritto, nel suo post sul blog , mostrando più esempi e casi d’uso. 


 
Romero ha detto che i risultati sono impressionanti. Ha detto che è solo un altro modello GPT. Ma a uno sguardo più attento emergono chiare differenze. Ad esempio, GPT-J è 30 volte più piccolo di GPT-3 con 175 miliardi di parametri. “Nonostante la grande differenza, ‘GPT-J’ produce un codice migliore, solo perché è stato leggermente più ottimizzato per svolgere il compito”, ha aggiunto. 

Inoltre, ha affermato che un’ulteriore ottimizzazione potrebbe dare origine a piattaforme molto migliori di GPT-3 (e non limitate alla codifica). GPT-3 diventerebbe un tuttofare, mentre i sistemi specializzati sarebbero i veri padroni, ha aggiunto Romero.

Recentemente, il BAAI, sostenuto dal governo cinese, ha introdotto Wu Dao 2.0, il più grande modello linguistico fino ad oggi, con 1,75 trilioni di parametri. Ha superato Switch Transformer di Google e GPT-3 di OpenAI in termini di dimensioni. 

 

Di ihal