GPT-4: fatti, voci e aspettative sul modello AI di nuova generazione
GPT-4 è la quarta versione del GPT, uno dei modelli di intelligenza artificiale più avanzati e attesi. GPT-3 ha avuto un significativo aumento delle prestazioni rispetto a GPT-2. Se GPT-4 può portare il modello AI al livello successivo, sarà come un salto di qualità in termini di capacità. E il bello è che GPT-4 è quasi pronto. Probabilmente saremo in grado di sperimentare GPT-4 nei prossimi mesi. Dovrebbe essere pronto all’inizio del 2023.

Le specifiche concrete delle specifiche GPT-4 sono ancora sconosciute perché OpenAI, la società dietro GPT-4, non rivela molte informazioni sul modello.

In questo articolo, voglio riassumere ciò che sappiamo finora su GPT-4: fatti, voci e aspettative generali sul modello AI di prossima generazione.

Che cos’è GPT?
Prima di entrare nei dettagli, è essenziale descrivere cos’è un GPT. GPT (Generative Pre-trained Transformer) è un modello AI di generazione di testo addestrato sui dati disponibili su Internet. GPT è progettato per generare testo simile a quello umano.

Pensa a GPT come a un’intelligenza su richiesta. Puoi usarlo ogni volta che devi risolvere problemi che in genere richiedono il coinvolgimento umano.
Le applicazioni dei modelli GPT sono infinite. Può essere utilizzato per domande e risposte, riepilogo del testo, traduzione, classificazione, generazione di codice, ecc. Alcune persone credono che, in prospettiva, GPT o un modello AI simile possa sostituire Google.

GPT offre molte opportunità per gli imprenditori. È possibile mettere a punto il modello su dati specifici per ottenere risultati eccellenti in un particolare dominio (una procedura nota come transfer learning). Le startup e le aziende utilizzeranno GPT come base per i prodotti che creano e li salverà dalla necessità di addestrare i propri modelli di intelligenza artificiale.

Qual è la dimensione del modello GPT-4? Che numero di parametri avrà?
Un parametro è una variabile di configurazione interna al modello AI e il cui valore può essere estratto dai dati forniti. I modelli di intelligenza artificiale utilizzano i parametri quando fanno previsioni.

Un numero di parametri che ha un modello AI è una metrica di prestazioni comunemente usata. L’ipotesi di ridimensionamento afferma che le prestazioni di modellazione del linguaggio migliorano in modo fluido e prevedibile man mano che aumentiamo in modo appropriato le dimensioni, i dati e la potenza di calcolo di un modello. Ecco perché molti creatori di modelli di intelligenza artificiale si sono concentrati sull’aumento del numero di parametri dei loro modelli.


Leggi di ridimensionamento per modelli di linguaggio neurale. Immagine della Cornell University .
Dal 2018, quando è stato rilasciato GPT-1, OpenAI ha seguito la strategia “più grande è, meglio è”. GPT-1 aveva 117 milioni di parametri, GPT-2 aveva 1,2 miliardi di parametri e GPT-3 ha aumentato ulteriormente il numero a 175 miliardi di parametri. Significa che il modello GPT-3 ha 100 volte più parametri di GPT-2. GPT-3 è un modello di dimensioni molto grandi, con 175 miliardi di parametri.

In un’intervista dell’agosto 2021 con Wired , Andrew Feldman, fondatore e CEO di Cerebras, una società che collabora con OpenAI per addestrare il modello GPT, ha affermato che GPT-4 sarà di circa 100 trilioni di parametri. Potrebbe sembrare che GPT-4 sarà 100 volte più potente di GPT-3.

100 trilioni di parametri è una stima bassa per il numero di connessioni neurali nel cervello umano. Se GPT-4 avrà 100 trilioni di parametri, corrisponderà al cervello umano in termini di parametri.
Nessuna sorpresa che questo abbia reso le persone così entusiaste.


Confronto del numero di parametri in GPT-3 e GPT-4. Immagine di AiBreakfast
In realtà, la dimensione del modello non è direttamente correlata alla qualità del risultato che produce. Il numero di parametri non è necessariamente correlato alle prestazioni di un modello AI. È solo un fattore che influisce sulle prestazioni del modello. In questo momento, abbiamo modelli IA molto più grandi di GPT-3, ma non sono i migliori in termini di prestazioni. Ad esempio, Megatron-Turing NLG , realizzato da Nvidia e Microsoft, ha più di 500B di parametri ed è il modello più grande in questo momento. Ma nonostante ciò MT-NLG non è il massimo in termini di prestazioni. Il modello più piccolo può raggiungere livelli di prestazioni più elevati.


Dimensione del modello (in miliardi di parametri). Immagine di Nvidia .
Inoltre, più grande è il modello, più costoso è perfezionarlo. GPT3 era abbastanza difficile e costoso da addestrare, ma se aumenti le dimensioni del modello di 100 volte, sarà estremamente costoso in termini di potenza di calcolo e quantità di dati di addestramento richiesti per il modello.

C’è una bassa possibilità che OpenAI abbia parametri 100T in GPT-4 perché il solo aumento del numero di parametri di addestramento non causerà alcun miglioramento drastico se anche i dati di addestramento non vengono aumentati proporzionalmente. I modelli di grandi dimensioni sono spesso non ottimizzati (prendi Megatron-Turing NLG come esempio). È molto costoso addestrare il modello e spesso le aziende devono fare uno scambio tra l’accuratezza del modello AI e il costo dell’addestramento. Ad esempio, GPT-3 è stato addestrato solo una volta e, nonostante gli errori nel modello AI, OpenAI non è stato in grado di addestrare nuovamente il modello a causa di costi insostenibili.

Tutto ciò significa che OpenAI probabilmente inizierà a evitare l’approccio “più grande è meglio” e si concentrerà sulla qualità del modello stesso. Molto probabilmente, GPT-4 sarebbe all’incirca delle dimensioni di GPT -3.

Ciò che è più interessante è che OpenAI probabilmente sposterà l’attenzione su altri aspetti che influiscono sulle prestazioni del modello, come algoritmi e allineamento. GPT-4 potrebbe essere il primo modello di intelligenza artificiale di grandi dimensioni con la scarsità al centro. I modelli sparsi utilizzano il calcolo condizionale per ridurre i costi di elaborazione: non tutti i neuroni nel modello AI sono attivi in ​​un dato momento. Il modello può facilmente scalare oltre un trilione di parametri senza incorrere in costi di calcolo elevati. I modelli sparsi comprendono anche meglio il contesto: possono mantenere molte più scelte di “parola/frase successiva” in base a ciò che l’utente ha fornito. Di conseguenza, i modelli sparsi sono più simili al pensiero umano effettivo rispetto ai loro predecessori.

GPT-4 sarà un modello solo testo o multimodale?
I modelli AI possono essere di solo testo o multimodali. I modelli di solo testo accettano il testo come input e producono testo come output. GPT-3 è un modello di solo testo. Il modello multimodale accetta input di testo, audio, immagini e persino video. Offre agli utenti la possibilità di utilizzare l’intelligenza artificiale per generare contenuti audiovisivi. La multimodalità è il futuro dell’IA perché il mondo in cui viviamo è multimodale. DALL-E è un modello multimodale.


Utilizzo di DALL-E per generare elementi visivi utilizzando un prompt di testo.
Buoni modelli multimodali sono significativamente più difficili da costruire rispetto a buoni modelli solo linguistici perché i modelli multimodali dovrebbero essere in grado di combinare informazioni testuali e visive in un’unica rappresentazione. Per quanto posso vedere, OpenAI sta cercando di trovare i limiti che hanno i modelli solo linguistici e probabilmente continueranno a muoversi in questa direzione con GPT-4 piuttosto che provare a creare un potente modello multimodale. Quindi GPT-4 sarà probabilmente un modello di solo testo.

GPT-4 dipenderà meno da un buon suggerimento?
Chiunque abbia esperienza di lavoro con GPT-3 sa quanto sia importante un buon suggerimento. Quando fai fatica a trovare il prompt giusto, il risultato finale non sarà abbastanza buono. Un’aspettativa che molte persone hanno su GPT-4 è che questo modello sarà meno dipendente da un buon suggerimento, dando agli utenti più libertà di formulare l’intenzione nel modo in cui lo desiderano ed essere più sicuri che il sistema li capirà.

L’obiettivo perseguito da OpenAI è far sì che i modelli linguistici seguano le intenzioni umane. Alta probabilità che il GPT-4 sia più allineato del GPT-3. Prima di rilasciare ChatGPT, la società ha investito in InstructGPT, un modello GPT-3 addestrato sul feedback umano per seguire le istruzioni. InstructGPT è addestrato su un ampio set di dati di testi didattici, tra cui istruzioni di ricette, guide pratiche e altri tipi di istruzioni scritte. L’obiettivo di InstructGPT è generare un testo in linguaggio naturale che sia chiaro, conciso e facile da seguire.

GPT-4 rivoluzionerà il mondo?
GPT-4 avrà un impatto sulla società allo stesso modo di Covid?


GPT-4 avrà sicuramente un impatto sul modo in cui le persone svolgono il proprio lavoro, ma non significa che tale impatto sarà paragonato a Covid (almeno durante i primi anni). Molto probabilmente, GPT-4 darà una spinta alla produttività in modo che le persone saranno in grado di completare il lavoro con l’IA più velocemente che senza di essa. Allo stesso tempo, siamo solo all’inizio dell’adozione degli strumenti di intelligenza artificiale, gli strumenti di intelligenza artificiale dovrebbero guadagnarsi la fiducia delle persone e solo dopo le persone inizieranno a utilizzarli nel lavoro quotidiano.

Esperienza personale. Uso ChatGPT , un chatbot avanzato basato sul modello linguistico GPT-3.5, per lavoro dal giorno in cui è stato pubblicamente disponibile e devo dire che offre molti vantaggi. Tuttavia, l’output generato da questo strumento richiede spesso convalida e correzione. Ad esempio, lo strumento può inventare cose o utilizzare riferimenti errati. A volte ci vuole più tempo per creare un testo usando ChatGPT piuttosto che scriverlo da zero. Il modello non ha ancora raggiunto una comprensione umana delle sfumature e delle complessità dell’esperienza della vita reale.


Utilizzo di ChatGPT per spiegare la differenza tra “complesso” e “complicato”.
Anche se GPT-4 offre un salto di qualità in termini di prestazioni, il tasso di adozione del sistema non sarà evidente durante il primo anno. Ci vorranno alcuni anni prima che il pubblico generale adotti il ​​cambiamento. E all’inizio, probabilmente avremo molte aree in cui gli esseri umani saranno notevolmente migliori.

Di ihal