OpenAI sta riducendo il prezzo dell’API GPT-3: ecco perché è importante 


OpenAI  sta riducendo il prezzo del suo servizio API GPT-3 fino a due terzi, secondo un annuncio sul sito Web dell’azienda. Il nuovo piano tariffario , che entrerà in vigore il 1° settembre, potrebbe avere un grande impatto sulle aziende che stanno costruendo prodotti sulla base del modello Large Language (LLM) di punta di OpenAI.

L’annuncio arriva quando gli ultimi mesi hanno visto un crescente interesse per gli LLM e le loro applicazioni in diversi campi. E i fornitori di servizi dovranno adattare i loro modelli di business ai cambiamenti nel mercato LLM, che sta crescendo e maturando rapidamente.

 
Il nuovo prezzo dell’API OpenAI mette in evidenza alcuni di questi cambiamenti in atto.

Un mercato più grande con più giocatori
L’ architettura del trasformatore , introdotta nel 2017, ha aperto la strada agli attuali modelli linguistici di grandi dimensioni. I trasformatori sono adatti per l’elaborazione di dati sequenziali come il testo e sono molto più efficienti dei loro predecessori (RNN e LSTM) su larga scala. I ricercatori hanno costantemente dimostrato che i trasformatori diventano più potenti e accurati man mano che vengono ingranditi e addestrati su set di dati più grandi.

 

Nel 2020, i ricercatori di OpenAI hanno introdotto GPT-3, che si è rivelato un momento di svolta per gli LLM. GPT-3 ha mostrato che gli LLM sono “studenti a pochi colpi”, il che in pratica significa che possono svolgere nuovi compiti senza subire cicli di formazione aggiuntivi e mostrando alcuni esempi al volo. Ma invece di rendere disponibile GPT-3 come modello open source, OpenAI ha deciso di rilasciare un’API commerciale come parte del suo sforzo per trovare modi per finanziare la sua ricerca.

GPT-3 ha aumentato l’interesse per le applicazioni LLM. Numerose aziende e startup hanno iniziato a creare nuove applicazioni con GPT-3 o a integrare LLM nei loro prodotti esistenti. 

Il successo di GPT-3 ha incoraggiato altre aziende a lanciare i propri progetti di ricerca LLM. Google, Meta, Nvidia e altre grandi aziende tecnologiche hanno accelerato il lavoro sugli LLM. Oggi ci sono diversi LLM che corrispondono o superano GPT-3 in termini di dimensioni o prestazioni di riferimento, tra cui OPT-175B di Meta, Chinchilla di DeepMind, PaLM di Google e Megatron MT-NLG di Nvidia.

GPT-3 ha anche innescato il lancio di numerosi progetti open source che miravano a rendere disponibili gli LLM a un pubblico più ampio. BLOOM di BigScience e GPT-J di EleutherAI sono due esempi di LLM open source disponibili gratuitamente. 

E OpenAI non è più l’unica azienda che fornisce servizi API LLM. Hugging Face , Cohere e Humanloop sono alcuni degli altri giocatori in campo. Hugging Face offre un’ampia varietà di trasformatori diversi, tutti disponibili come modelli open source scaricabili o tramite chiamate API. Hugging Face ha recentemente rilasciato un nuovo servizio LLM basato su Microsoft Azure, che OpenAI utilizza anche per la sua API GPT-3.

Il crescente interesse per gli LLM e la diversità delle soluzioni sono due elementi che stanno esercitando pressioni sui fornitori di servizi API affinché riducano i loro margini di profitto per proteggere ed espandere il loro mercato globale indirizzabile.

Anticipi hardware
Uno dei motivi per cui OpenAI e altre società hanno deciso di fornire l’accesso API agli LLM sono le sfide tecniche legate alla formazione e all’esecuzione dei modelli, che molte organizzazioni non sono in grado di gestire. Mentre i modelli di machine learning più piccoli possono essere eseguiti su una singola GPU, gli LLM richiedono dozzine o addirittura centinaia di GPU. 

 
A parte gli enormi costi hardware, la gestione degli LLM richiede esperienza in complicati calcoli distribuiti e paralleli. Gli ingegneri devono dividere il modello in più parti e distribuirlo su diverse GPU, che eseguiranno quindi i calcoli in parallelo e in sequenza. Questo è un processo soggetto a guasti e richiede soluzioni ad hoc per diversi tipi di modelli.

Ma con i LLM che stanno diventando commercialmente interessanti, c’è un crescente incentivo a creare hardware specializzato per grandi reti neurali.

La pagina dei prezzi di OpenAI afferma che l’azienda ha compiuto progressi nel rendere i modelli più efficienti. In precedenza, OpenAI e Microsoft avevano collaborato per creare un supercomputer per grandi reti neurali . Il nuovo annuncio di OpenAI suggerisce che il laboratorio di ricerca e Microsoft sono riusciti a compiere ulteriori progressi nello sviluppo di hardware AI migliore e nella riduzione dei costi di esecuzione di LLM su larga scala.

Ancora una volta, OpenAI affronta la concorrenza qui. Un esempio è Cerebras, che ha creato un enorme processore AI in grado di addestrare ed eseguire LLM con miliardi di parametri a una frazione dei costi e senza le difficoltà tecniche dei cluster di GPU. 

Anche altre grandi aziende tecnologiche stanno migliorando il loro hardware di intelligenza artificiale. Google ha introdotto la quarta generazione dei suoi chip TPU l’anno scorso e i suoi pod TPU v4 quest’anno. Amazon ha anche rilasciato speciali chip AI e Facebook sta sviluppando il proprio hardware AI . Non sarebbe sorprendente vedere gli altri giganti della tecnologia usare i loro poteri hardware per cercare di assicurarsi una quota del mercato LLM.

Gli LLM ottimizzati rimangono off limits, per ora 
Il dettaglio interessante nel nuovo modello di prezzo di OpenAI è che non si applicherà ai modelli GPT-3 ottimizzati. L’ottimizzazione è il processo di riqualificazione di un modello preaddestrato su un insieme di dati specifici dell’applicazione. I modelli ottimizzati migliorano le prestazioni e la stabilità delle reti neurali sull’applicazione di destinazione. L’ottimizzazione riduce anche i costi di inferenza consentendo agli sviluppatori di utilizzare prompt più brevi o modelli più piccoli ottimizzati per abbinare le prestazioni di un modello base più ampio sulla loro specifica applicazione.
Ad esempio, se una banca utilizzava in precedenza Davinci (il modello GPT-3 più grande) per il chatbot del servizio clienti, può mettere a punto i modelli Curie o Babbage più piccoli su dati specifici dell’azienda. In questo modo, può raggiungere lo stesso livello di prestazioni a una frazione del costo.

Ai tassi attuali, i modelli perfezionati costano il doppio delle controparti del modello base. Dopo la modifica del prezzo, la differenza di prezzo salirà a 4-6 volte. Alcuni hanno ipotizzato che i modelli perfezionati siano il punto in cui OpenAI sta davvero facendo soldi con l’impresa, motivo per cui i prezzi non cambieranno. 
Un altro motivo potrebbe essere che OpenAI non dispone ancora dell’infrastruttura per ridurre i costi dei modelli ottimizzati (a differenza del GPT-3 di base, in cui tutti i clienti utilizzano lo stesso modello, i modelli ottimizzati richiedono un’istanza GPT-3 per cliente). In tal caso, possiamo aspettarci che i prezzi della messa a punto scendano in futuro.

Sarà interessante vedere quali altre direzioni prenderà il mercato LLM in futuro.

 

Di ihal