Perchè GPT-3 ha fissato un punto di riferimento, ma non è quello che pensiamo

GPT-3 ha fissato un punto di riferimento, ma non è quello che pensi
Il modello addestrato su 2,7 miliardi di parametri è molto più accurato del modello addestrato su 175 miliardi di parametri.

Quando GPT-3 è arrivato online, si parlava in città, e lo è ancora. Il motivo è principalmente l’enorme set di dati su cui è stato addestrato il Large Language Model (LLM). Molti LLM imminenti considerano GPT-3 come punto di riferimento durante il lancio del loro prodotto; ad esempio, di recente, MosaicML ha pubblicato un blog intitolato “Mosaic LLMs (Part 2): GPT-3 quality for <$500k”. Ma il buon vecchio LLM è davvero il punto di riferimento?

Non è possibile che un modello LLM come GPT-3, che si basa su un enorme set di dati, sia il punto di riferimento per i prossimi modelli di apprendimento delle lingue. Il modello non mostra nemmeno prestazioni migliori in termini di veridicità rispetto ai precedenti LLM come GPT-Neo/ GPT-J , GPT-2 e modelli basati su T5 .

Ad esempio, se confrontiamo la percentuale di verità da vari modelli GPT-3, quelli che sono stati addestrati su un numero inferiore di set di dati hanno mostrato prestazioni migliori rispetto a quelli che sono stati addestrati su set di dati più grandi.

Inoltre, se confrontiamo GPT-3 con le sue diverse versioni, troviamo che il modello addestrato su 2,7 miliardi di parametri è molto più accurato del modello addestrato su 175 miliardi di parametri.

Quindi, quando l’unica cosa che differenzia GPT-3 dagli altri LLM – i miliardi di parametri su cui è stato addestrato – non gli fornisce aiuto, come ha guadagnato una tale popolarità?

Uno dei motivi principali è il framework API user-friendly e sviluppatore di OpenAI, che aumenta la possibilità che il prodotto venga utilizzato quotidianamente.

Sutanshu Raj, co-fondatore e CTO di Instoried, ha dichiarato ad Analytics India Magazine : “OpenAI ha fornito un framework API intuitivo e intuitivo per gli sviluppatori. Infatti, è così semplice che anche chi non ha competenze tecniche può usarlo nella vita di tutti i giorni”.

Inoltre, ha affermato che l’ottimizzazione del modello linguistico non richiede molto lavoro. “Gli utenti possono facilmente ottenere risultati paragonabili a quelli di altri modelli con il giusto set di dati e impostazioni ottimizzate”, ha affermato Sutanshu.

Inoltre, ritiene che la distribuzione non sia un problema per gli utenti. “I modelli di grandi dimensioni sono forniti sui server di OpenAI e possono essere facilmente richiamati aderendo alla documentazione.”

Allo stesso modo, Ashish Kumar, Principal Data Scientist presso Indium Software, ha dichiarato ad Analytics India Magazine che il motivo per cui GPT-3 rimane il modello linguistico di grandi dimensioni preferito nonostante il fatto che altri LLM più grandi/multilingui siano arrivati sulla scena è perché del suo compito natura agnostica.

“È addestrato in modo auto-supervisionato e, insieme all’ingegneria rapida e alla messa a punto zero/pochi scatti, può creare soluzioni per una varietà di casi d’uso come la parafrasi di un testo, il completamento del codice, la domanda/risposta su un enorme corpus di testo e non solo la generazione del testo riceve un prompt.
Kumar ritiene che il modello Freemium di accesso alla sua API dai suoi siti Web e altri canali di distribuzione come il repository del modello Hugging Face e l’hosting basato su cloud (di AWS e altri) abbia reso più facile per uno sviluppatore utilizzarlo nelle applicazioni. “Un altro motivo è il suo vantaggio di first mover e la sua percezione come un modello più stabile rispetto a concorrenti come BLOOM ecc., il cui focus è più sull’essere multilingue”, ha affermato.

Tuttavia, un’altra cosa che non può essere trascurata è la grande comunità che OpenAI ha creato.

Sottolineando il ruolo dell’enorme comunità che OpenAI ha sviluppato, Saurabh Singhal, Founder – KnowDis ha dichiarato ad Analytics India Magazine che: “Il genio alla base di questo miglioramento continuo risiede nel fatto che GPT-3 viene reso disponibile al pubblico (tramite un’API a pagamento), che ha consentito a Open AI di raccogliere grandi quantità di dati generati dagli utenti (prompt inviati dai clienti) per addestrare il modello.

“Si può dire che le versioni più recenti di GPT-3 sono ‘crowdsourced’, il che le fa superare anche i migliori modelli della concorrenza che non hanno accesso a questo tipo di inestimabili dati di addestramento del mondo reale. Essendo il primo modello di questo tipo, la sua accessibilità per l’uso e la copertura su larga scala nei media, GPT-3 continua a ricevere grandi quantità di dati da una vasta base di clienti, dandogli così un vantaggio “, ha affermato Singhal .

DI LOKESH CHOUDHARY da analyticsindiamag.com

Perchè GPT-3 ha fissato un punto di riferimento, ma non è quello che pensiamo

Diihal

Di ihal

Articoli correlati

Arriva ModernBERT per l’elaborazione dell’NLP

Wayve AI LINGO-2: semplificare la guida autonoma con il linguaggio naturale

DUS Depth-Up Scaling rivoluzionario approccio per lo sviluppo di modelli linguistici avanzati

You missed

Adobe Firefly AI trasforma la produzione video con suoni personalizzati

Naver Place introduce la ricerca visiva AI dei luoghi

Loveable, l’unicorno europeo del vibe coding

Claude Code di Anthropic: restrizioni inaspettate e confusione tra gli utenti