GPT-3 ha fissato un punto di riferimento, ma non è quello che pensi
Il modello addestrato su 2,7 miliardi di parametri è molto più accurato del modello addestrato su 175 miliardi di parametri.
 
Quando GPT-3 è arrivato online, si parlava in città, e lo è ancora. Il motivo è principalmente l’enorme set di dati su cui è stato addestrato il Large Language Model (LLM). Molti LLM imminenti considerano GPT-3 come punto di riferimento durante il lancio del loro prodotto; ad esempio, di recente, MosaicML ha pubblicato un blog intitolato “Mosaic LLMs (Part 2): GPT-3 quality for <$500k”. Ma il buon vecchio LLM è davvero il punto di riferimento? 

Non è possibile che un modello LLM come GPT-3, che si basa su un enorme set di dati, sia il punto di riferimento per i prossimi modelli di apprendimento delle lingue. Il modello non mostra nemmeno prestazioni migliori in termini di veridicità rispetto ai precedenti LLM come GPT-Neo/ GPT-J , GPT-2 e modelli basati su  T5 .


Ad esempio, se confrontiamo la percentuale di verità da vari modelli GPT-3, quelli che sono stati addestrati su un numero inferiore di set di dati hanno mostrato prestazioni migliori rispetto a quelli che sono stati addestrati su set di dati più grandi.


Inoltre, se confrontiamo GPT-3 con le sue diverse versioni, troviamo che il modello addestrato su 2,7 miliardi di parametri è molto più accurato del modello addestrato su 175 miliardi di parametri. 

Quindi, quando l’unica cosa che differenzia GPT-3 dagli altri LLM – i miliardi di parametri su cui è stato addestrato – non gli fornisce aiuto, come ha guadagnato una tale popolarità?

Uno dei motivi principali è il framework API user-friendly e sviluppatore di OpenAI, che aumenta la possibilità che il prodotto venga utilizzato quotidianamente.

Sutanshu Raj, co-fondatore e CTO di Instoried, ha dichiarato ad Analytics India Magazine : “OpenAI ha fornito un framework API intuitivo e intuitivo per gli sviluppatori. Infatti, è così semplice che anche chi non ha competenze tecniche può usarlo nella vita di tutti i giorni”.

Inoltre, ha affermato che l’ottimizzazione del modello linguistico non richiede molto lavoro. “Gli utenti possono facilmente ottenere risultati paragonabili a quelli di altri modelli con il giusto set di dati e impostazioni ottimizzate”, ha affermato Sutanshu.

Inoltre, ritiene che la distribuzione non sia un problema per gli utenti. “I modelli di grandi dimensioni sono forniti sui server di OpenAI e possono essere facilmente richiamati aderendo alla documentazione.”

Allo stesso modo, Ashish Kumar, Principal Data Scientist presso Indium Software, ha dichiarato ad Analytics India Magazine che il motivo per cui GPT-3 rimane il modello linguistico di grandi dimensioni preferito nonostante il fatto che altri LLM più grandi/multilingui siano arrivati ​​sulla scena è perché del suo compito natura agnostica. 

“È addestrato in modo auto-supervisionato e, insieme all’ingegneria rapida e alla messa a punto zero/pochi scatti, può creare soluzioni per una varietà di casi d’uso come la parafrasi di un testo, il completamento del codice, la domanda/risposta su un enorme corpus di testo e non solo la generazione del testo riceve un prompt.
Kumar ritiene che il modello Freemium di accesso alla sua API dai suoi siti Web e altri canali di distribuzione come il repository del modello Hugging Face e l’hosting basato su cloud (di AWS e altri) abbia reso più facile per uno sviluppatore utilizzarlo nelle applicazioni. “Un altro motivo è il suo vantaggio di first mover e la sua percezione come un modello più stabile rispetto a concorrenti come BLOOM ecc., il cui focus è più sull’essere multilingue”, ha affermato. 

Tuttavia, un’altra cosa che non può essere trascurata è la grande comunità che OpenAI ha creato. 

Sottolineando il ruolo dell’enorme comunità che OpenAI ha sviluppato, Saurabh Singhal, Founder – KnowDis ha dichiarato ad Analytics India Magazine che: “Il genio alla base di questo miglioramento continuo risiede nel fatto che GPT-3 viene reso disponibile al pubblico (tramite un’API a pagamento), che ha consentito a Open AI di raccogliere grandi quantità di dati generati dagli utenti (prompt inviati dai clienti) per addestrare il modello.

“Si può dire che le versioni più recenti di GPT-3 sono ‘crowdsourced’, il che le fa superare anche i migliori modelli della concorrenza che non hanno accesso a questo tipo di inestimabili dati di addestramento del mondo reale. Essendo il primo modello di questo tipo, la sua accessibilità per l’uso e la copertura su larga scala nei media, GPT-3 continua a ricevere grandi quantità di dati da una vasta base di clienti, dandogli così un vantaggio “, ha affermato Singhal . 

DI LOKESH CHOUDHARY da analyticsindiamag.com

Di ihal