A marzo, OpenAI ha annunciato con grande enfasi il lancio di GPT-4, ma c’era un’ombra in agguato. Tanto gli scienziati quanto gli appassionati di intelligenza artificiale hanno criticato l’azienda per non aver rilasciato dettagli sul modello, come la dimensione dei parametri o l’architettura. Tuttavia, un importante ricercatore di intelligenza artificiale ha ipotizzato il funzionamento interno di GPT-4, rivelando la ragione per cui OpenAI ha scelto di tenere queste informazioni nascoste, e il risultato è stato deludente.
Il CEO di OpenAI, Sam Altman, ha affermato in modo notorio riguardo a GPT-4 che “le persone vogliono essere deluse, e lo saranno”, riferendosi alla potenziale dimensione del modello. Le voci prima del lancio suggerivano che avrebbe avuto trilioni di parametri e sarebbe stata la migliore creazione mai vista al mondo. Tuttavia, la realtà è diversa. Nel tentativo di rendere GPT-4 superiore a GPT-3.5, OpenAI potrebbe essersi cimentata in una sfida più grande di quanto avrebbe potuto gestire.
Recentemente, George Hotz, hacker e ingegnere software di fama mondiale, è apparso in un podcast per speculare sulla natura architettonica di GPT-4. Hotz ha suggerito che il modello potrebbe essere composto da otto modelli distinti, ciascuno con 220 miliardi di parametri. Questa speculazione è stata successivamente confermata da Soumith Chintala, il co-fondatore di PyTorch.
Sebbene ciò porti il conteggio dei parametri di GPT-4 a 1,76 trilioni, la cosa interessante è che tutti questi modelli non funzionano simultaneamente. Invece, vengono combinati in un’architettura chiamata esperti di modelli multipli (MoE). Questa architettura trasforma ciascun modello in diversi componenti, noti come modelli esperti, ognuno dei quali è specializzato in un campo specifico e può fornire risposte migliori in quel campo. Quindi, tutti i modelli esperti collaborano nel modello completo, sfruttando l’intelligenza collettiva di tutti i modelli.
Questo approccio presenta numerosi vantaggi. Ad esempio, si ottengono risposte più accurate grazie alla specializzazione dei modelli su diversi argomenti. Inoltre, l’architettura MoE è facilmente aggiornabile, in quanto i manutentori del modello possono apportare miglioramenti in modo modulare, anziché dover aggiornare un modello monolitico. Hotz ha anche suggerito che il modello potrebbe fare affidamento su un processo di inferenza iterativo per ottenere risultati migliori. In questo processo, l’output, o il risultato dell’inferenza del modello, viene perfezionato attraverso più iterazioni.
Questo metodo potrebbe consentire anche a GPT-4 di ricevere input da ciascuno dei suoi modelli esperti, riducendo così le possibili incongruenze nel modello. Hotz ha suggerito che questo processo potrebbe essere ripetuto 16 volte, il che aumenterebbe significativamente il costo operativo del modello. Questo approccio è stato paragonato al vecchio trucco dei tre bambini sotto un cappotto, che cercano di passare per adulti. Molti hanno paragonato GPT-4 a otto GPT-3 sotto un’unica veste, cercando di ingannare il mondo.
Sebbene GPT-4 abbia superato i benchmark che GPT-3 ha faticato a raggiungere, l’architettura MoE sembra essere diventata un problema per OpenAI. In un’intervista ormai cancellata, Altman ha ammesso i problemi di scalabilità che OpenAI sta affrontando, in particolare la mancanza di GPU.
Eseguire l’inferenza 16 volte su un modello con architettura MoE aumenterà sicuramente i costi del cloud su larga scala. Non sorprende che, quando è stato lanciato a milioni di utenti di ChatGPT, anche il supercomputer di Azure sia stato sopraffatto. Questo sembra essere uno dei principali problemi attuali che OpenAI sta affrontando e Altman ha dichiarato che la priorità assoluta dell’azienda è rendere GPT-4 più economico e veloce.
Ciò ha comportato anche un deterioramento segnalato della qualità delle risposte di ChatGPT. Su Internet, gli utenti hanno segnalato una diminuzione della qualità anche nelle risposte fornite da ChatGPT Plus. Abbiamo trovato una nota di rilascio per ChatGPT che sembra confermare ciò, in cui si afferma: “Abbiamo migliorato le prestazioni del modello ChatGPT sul nostro piano gratuito per soddisfare un numero maggiore di utenti”. Nella stessa nota, OpenAI ha anche informato gli utenti che gli utenti Plus sarebbero stati impostati per impostazione predefinita sulla variante “Turbo” del modello, ottimizzata per la velocità di inferenza.
D’altra parte, sembra che gli utenti API abbiano evitato completamente questo problema. Gli utenti di Reddit hanno notato che altri prodotti che utilizzano l’API OpenAI forniscono risposte migliori alle loro domande rispetto a ChatGPT Plus. Ciò potrebbe essere dovuto al fatto che gli utenti dell’API OpenAI hanno un volume inferiore rispetto agli utenti di ChatGPT, riducendo così i costi di OpenAI per quanto riguarda ChatGPT, ma non l’API.
In una corsa frenetica per lanciare GPT-4 sul mercato, sembra che OpenAI abbia preso delle scorciatoie. Sebbene l’architettura MoE sia un passo avanti per migliorare la serie GPT, i problemi di scalabilità che l’azienda sta affrontando indicano che potrebbero essersi lanciati in qualcosa di più grande di quanto fossero in grado di gestire.