GPT-4 ci avvicinerà a una vera rivoluzione dell’IA?
Sono passati quasi tre anni da quando GPT-3 è stato introdotto, nel maggio 2020. Da allora, il modello di generazione di testo AI ha suscitato molto interesse per la sua capacità di creare testo che sembra e suona come se fosse stato scritto da un essere umano. Ora sembra che la prossima iterazione del software, GPT-4, sia proprio dietro l’angolo, con una data di rilascio stimata all’inizio del 2023.
Nonostante la natura molto attesa di questa notizia sull’IA, i dettagli esatti su GPT-4 sono stati piuttosto imprecisi. OpenAI, la società dietro GPT-4, non ha rivelato pubblicamente molte informazioni sul nuovo modello, come le sue caratteristiche o le sue capacità. Tuttavia, i recenti progressi nel campo dell’intelligenza artificiale, in particolare per quanto riguarda l’elaborazione del linguaggio naturale (NLP), possono offrire alcuni indizi su cosa possiamo aspettarci da GPT-4.
Che cos’è GPT?
Prima di entrare nello specifico, è utile stabilire una linea di base su cosa sia GPT. GPT è l’acronimo di Generative Pre-trained Transformer e si riferisce a un modello di rete neurale di deep learning che viene addestrato sui dati disponibili da Internet per creare grandi volumi di testo generato dalla macchina. GPT-3 è la terza generazione di questa tecnologia ed è uno dei modelli di generazione di testo AI più avanzati attualmente disponibili.
Pensa a GPT-3 come se funzionasse un po’ come gli assistenti vocali, come Siri o Alexa, solo su scala molto più ampia. Invece di chiedere ad Alexa di riprodurre la tua canzone preferita o chiedere a Siri di digitare il tuo testo, puoi chiedere a GPT-3 di scrivere un intero eBook in pochi minuti o generare 100 idee per post sui social media in meno di un minuto. Tutto ciò che l’utente deve fare è fornire un prompt, ad esempio “Scrivimi un articolo di 500 parole sull’importanza della creatività”. Finché il prompt è chiaro e specifico, GPT-3 può scrivere qualsiasi cosa tu gli chieda.
Dal suo rilascio al grande pubblico, GPT-3 ha trovato molte applicazioni aziendali. Le aziende lo utilizzano per il riepilogo del testo, la traduzione linguistica, la generazione di codice e l’automazione su larga scala di quasi tutte le attività di scrittura.
Detto questo, mentre GPT-3 è senza dubbio molto impressionante nella sua capacità di creare testo altamente leggibile simile a quello umano, è tutt’altro che perfetto. I problemi tendono a sorgere quando viene richiesto di scrivere pezzi più lunghi, soprattutto quando si tratta di argomenti complessi che richiedono approfondimenti. Ad esempio, una richiesta di generare codice informatico per un sito Web può restituire un codice corretto ma non ottimale, quindi un programmatore umano deve ancora entrare e apportare miglioramenti. È un problema simile con documenti di testo di grandi dimensioni: maggiore è il volume del testo, più è probabile che emergano errori, a volte esilaranti, che devono essere corretti da uno scrittore umano.
In poche parole, GPT-3 non è un sostituto completo per scrittori o programmatori umani e non dovrebbe essere considerato come tale. Invece, GPT-3 dovrebbe essere visto come un assistente alla scrittura, che può far risparmiare molto tempo alle persone quando hanno bisogno di generare idee per post di blog o bozze per testi pubblicitari o comunicati stampa.
Più parametri = meglio?
Una cosa da capire sui modelli AI è come usano i parametri per fare previsioni. I parametri di un modello AI definiscono il processo di apprendimento e forniscono la struttura per l’output. Il numero di parametri in un modello AI è stato generalmente utilizzato come misura delle prestazioni. Maggiore è il numero di parametri, più potente, regolare e prevedibile è il modello, almeno secondo l’ ipotesi di ridimensionamento .
Ad esempio, quando GPT-1 è stato rilasciato nel 2018, aveva 117 milioni di parametri. GPT-2, rilasciato un anno dopo, aveva 1,2 miliardi di parametri, mentre GPT-3 ha aumentato ulteriormente il numero a 175 miliardi di parametri. Secondo un’intervista dell’agosto 2021 con Wired , Andrew Feldman, fondatore e CEO di Cerebras, una società che collabora con OpenAI, ha affermato che GPT-4 avrebbe circa 100 trilioni di parametri. Ciò renderebbe GPT-4 100 volte più potente di GPT-3, un salto di qualità nella dimensione dei parametri che, comprensibilmente, ha entusiasmato molte persone.
Tuttavia, nonostante la nobile affermazione di Feldman, ci sono buone ragioni per pensare che GPT-4 non avrà in realtà 100 trilioni di parametri. Maggiore è il numero di parametri, più costoso diventa il training e la messa a punto di un modello a causa della grande quantità di potenza di calcolo richiesta.
Inoltre, ci sono più fattori oltre al numero di parametri che determinano l’efficacia di un modello. Prendiamo ad esempio Megatron-Turing NLG , un modello di generazione di testo creato da Nvidia e Microsoft, che ha più di 500 miliardi di parametri. Nonostante le sue dimensioni, MT-NLG non si avvicina a GPT-3 in termini di prestazioni. Insomma, più grande non significa necessariamente migliore.
È probabile che GPT-4 abbia effettivamente più parametri di GPT-3, ma resta da vedere se quel numero sarà superiore di un ordine di grandezza. Invece, ci sono altre possibilità intriganti che OpenAI sta probabilmente perseguendo, come un modello più snello che si concentri su miglioramenti qualitativi nella progettazione e nell’allineamento algoritmico. L’impatto esatto di tali miglioramenti è difficile da prevedere, ma ciò che è noto è che un modello sparso può ridurre i costi di calcolo attraverso quello che viene chiamato calcolo condizionale, ovvero, non tutti i parametri nel modello di intelligenza artificiale funzioneranno continuamente, il che è simile a come funzionano i neuroni nel cervello umano.
Quindi, cosa sarà in grado di fare GPT-4?
Fino a quando OpenAI non uscirà con una nuova dichiarazione o addirittura rilascerà GPT-4, non ci resta che speculare su come differirà da GPT-3. Indipendentemente da ciò, possiamo fare alcune previsioni
Sebbene il futuro dello sviluppo dell’apprendimento profondo dell’IA sia multimodale, GPT-4 rimarrà probabilmente solo testo. Come esseri umani, viviamo in un mondo multisensoriale pieno di diversi input audio, visivi e testuali. Pertanto, è inevitabile che lo sviluppo dell’IA alla fine produca un modello multimodale in grado di incorporare una varietà di input.
Tuttavia, un buon modello multimodale è significativamente più difficile da progettare rispetto a un modello di solo testo. La tecnologia semplicemente non è ancora arrivata e, sulla base di ciò che sappiamo sui limiti della dimensione dei parametri, è probabile che OpenAI si stia concentrando sull’espansione e sul miglioramento di un modello di solo testo.
È anche probabile che GPT-4 dipenderà meno da suggerimenti precisi. Uno degli svantaggi di GPT-3 è che i prompt di testo devono essere scritti con cura per ottenere il risultato desiderato. Quando i suggerimenti non sono scritti con cura, puoi finire con risultati non veritieri, tossici o addirittura che riflettono opinioni estremiste. Questo fa parte del cosiddetto “problema di allineamento” e si riferisce alle sfide nella creazione di un modello di intelligenza artificiale che comprenda appieno le intenzioni dell’utente. In altre parole, il modello AI non è allineato con gli obiettivi o le intenzioni dell’utente. Poiché i modelli di intelligenza artificiale vengono addestrati utilizzando set di dati di testo da Internet, è molto facile per pregiudizi, falsità e pregiudizi umani trovare la loro strada negli output di testo.
Detto questo, ci sono buone ragioni per credere che gli sviluppatori stiano facendo progressi sul problema dell’allineamento. Questo ottimismo deriva da alcune scoperte nello sviluppo di InstructGPT, una versione più avanzata di GPT-3 che viene addestrata sul feedback umano per seguire più da vicino le istruzioni e le intenzioni dell’utente. I giudici umani hanno scoperto che InstructGPT dipendeva molto meno di GPT-3 da un buon suggerimento.
Tuttavia, va notato che questi test sono stati condotti solo con dipendenti OpenAI, un gruppo abbastanza omogeneo che potrebbe non differire molto per genere, opinioni religiose o politiche. È probabilmente una scommessa sicura che GPT-4 subirà una formazione più diversificata che migliorerà l’allineamento per diversi gruppi, anche se resta da vedere fino a che punto.
GPT-4 sostituirà gli esseri umani?
Nonostante la promessa di GPT-4, è improbabile che sostituisca completamente la necessità di scrittori e programmatori umani. C’è ancora molto lavoro da fare su tutto, dall’ottimizzazione dei parametri alla multimodalità all’allineamento. Potrebbero passare molti anni prima di vedere un generatore di testo in grado di raggiungere una comprensione veramente umana delle complessità e delle sfumature dell’esperienza della vita reale.
Anche così, ci sono ancora buoni motivi per essere entusiasti dell’arrivo di GPT-4. L’ottimizzazione dei parametri, piuttosto che la semplice crescita dei parametri, porterà probabilmente a un modello di intelligenza artificiale con una potenza di calcolo molto maggiore rispetto al suo predecessore. E un migliore allineamento probabilmente renderà GPT-4 molto più user-friendly.
Inoltre, siamo ancora solo all’inizio dello sviluppo e dell’adozione di strumenti di intelligenza artificiale. Vengono costantemente trovati più casi d’uso per la tecnologia e, man mano che le persone acquisiscono maggiore fiducia e conforto nell’utilizzo dell’IA sul posto di lavoro, è quasi certo che nei prossimi anni assisteremo a un’adozione diffusa degli strumenti di intelligenza artificiale in quasi tutti i settori aziendali.
Danny Rittmann da unite.ai