GPT-4 è qui. Il tanto atteso e atteso modello AI di OpenAI è stato annunciato e lanciato come prodotto il 14 marzo. Ecco cos’è: tutto ciò che devi sapere su GPT-4 in dieci punti salienti.
- Multimodalità: il primo buon modello di linguaggi multimodali di grandi dimensioni
La caratteristica più saliente che differenzia GPT-4 dai suoi simili è che, a differenza di GPT-3 e ChatGPT, è multimodale: accetta prompt costituiti da testo, immagini o entrambi interlacciati “arbitrariamente” ed emette output di testo. Come utente, puoi specificare “qualsiasi attività visiva o linguistica”, ad esempio puoi chiedergli di spiegare perché un meme è divertente o scattare una foto del tuo frigorifero e chiedere una ricetta salutare. Gli esperti di intelligenza artificiale come il pioniere del deep learning Yoshua Bengio ritengono che la multimodalità sia un passo necessario per l’intelligenza generale. Il mondo è multimodale (le modalità di informazione vanno ben oltre il linguaggio e la visione) e noi esseri umani dobbiamo gran parte della nostra impareggiabile abilità e intelligenza alle capacità multisensoriali del nostro cervello: se vogliamo che l’IA capisca il mondo come noi, il linguaggio da solo non è sufficiente . Un impressionante esempio del potere della multimodalità è stato mostrato durante la demo dal vivo per gli sviluppatori dopo l’annuncio. Greg Brockman, presidente e co-fondatore di OpenAI, ha scattato una foto di alcune note scarabocchiate su un pezzo di carta (linguaggio di markup) ed è riuscito a far scrivere a GPT-4 un sito web funzionante. Uno svantaggio dei modelli multimodali è che tendono a compromettere le prestazioni su attività di testo/immagine in cambio della capacità di elaborarle insieme. Questo sembra non accadere con GPT-4: “su una gamma di domini, inclusi documenti con testo e fotografie, diagrammi o schermate, GPT-4 mostra funzionalità simili a quelle degli input di solo testo”. - Disponibilità: ChatGPT+ e API
La versione multimodale di GPT-4 è ancora un’anteprima di ricerca e non è ancora disponibile per gli utenti di ChatGPT o per i clienti API. OpenAI sta attualmente lavorando per migliorare l’app Be My Eyes con profonde implicazioni “per la comunità dei non vedenti e degli ipovedenti”. Non ci sono informazioni su quando OpenAI inizierà a implementarlo per il resto di noi. Il GPT-4 solo testo è già disponibile sull’interfaccia ChatGPT per gli utenti Plus ($ 20/mese). Basta selezionare GPT-4 nella scheda del modello anziché l’impostazione predefinita (limite attuale: 100 messaggi ogni 4 ore). È più lento di ChatGPT ma più potente. OpenAI afferma che “sperano a un certo punto di offrire una certa quantità di query GPT-4 gratuite in modo che anche quelli senza abbonamento possano provarlo”. È disponibile anche per gli sviluppatori sull’API (c’è una lista d’attesa). Puoi ottenere l’accesso prioritario se “contribuisci con valutazioni di alta qualità” al framework che OpenAI ha reso open source per valutare modelli come GPT-4. Alcune aziende e istituzioni lo stanno già utilizzando: Duolingo, Be My Eyes, Stripe, Morgan Stanley, Khan Academy e il governo islandese. - Prezzi e finestra contestuale ingrandita
L’API ha un vantaggio importante: consente l’accesso a una finestra di contesto ingrandita. GPT-4 supporta prompt fino a 8K e 32K token (25K parole), ovvero documenti fino a 50 pagine. Alcune applicazioni che non erano realizzabili con GPT-3.5 (ad esempio, elaborare un intero libro in uno o pochi passaggi) sono banali con GPT-4. (Questa opzione non sembra essere disponibile per gli utenti ChatGPT+.) Inoltre, se desideri elaborare più dati contemporaneamente, devi pagare di più. Questa è la struttura dei prezzi dell’API di GPT-4:
Token 8K: token di richiesta da $ 0,03/1k, token di completamento da $ 0,06/1k.
Contesto 32K: token prompt da $0,06/1k, token di completamento da $0,12/1k.
Per fare un confronto, il secondo miglior modello, che è alla base di ChatGPT (ovvero GPT-3.5-turbo), costa $ 0,002/1K di token (15 volte in meno rispetto all’opzione più economica per GPT-4) e non distingue tra prompt e completamento. A seconda del caso d’uso, potrebbe non avere senso passare a GPT-4. - Prestazioni elevate su esami umani e benchmark linguistici/visivi
Secondo le valutazioni di OpenAI, possiamo concludere che GPT-4 è il miglior modello linguistico in circolazione, sia per le attività linguistiche che per quelle visive/multimodali. Raggiunge un livello all’avanguardia (SOTA) in molte discipline e, in particolare, raggiunge le prestazioni umane su problemi progettati per le persone, come gli esami Bar, SAT e AP. - Scaling predittivo: di cosa saranno capaci i modelli futuri?
Dall’articolo (sottolineatura mia): “Un grande obiettivo del progetto GPT-4 era la creazione di uno stack di deep learning che scala in modo prevedibile. Il motivo principale è che per corse di addestramento molto grandi come GPT-4, non è possibile eseguire un’ottimizzazione specifica del modello. Per risolvere questo problema, abbiamo sviluppato metodi di infrastruttura e ottimizzazione che hanno un comportamento molto prevedibile su più scale. Questi miglioramenti ci hanno permesso di prevedere in modo affidabile alcuni aspetti delle prestazioni di GPT-4 da modelli più piccoli addestrati utilizzando 1.000×–10.000× di calcolo in meno.” Se lo interpreto correttamente, OpenAI ha presumibilmente trovato un modo per prevedere alcune delle capacità di GPT-5, GPT-6, ecc. Usandone versioni più piccole. Ma, se si aspettano che nuove capacità emergano spontaneamente nei modelli futuri – e lo fanno, altrimenti, perché dovrebbero credere di poter costruire AGI ridimensionando i modelli – come intendono prevederle? Spero che questo non sia il tentativo di OpenAI di convincerci che ora hanno i mezzi per decidere preventivamente se sono andati troppo oltre ed è ora di rallentare. Se anche Ilya Sutskever, che ha twittato la controversa idea che “le reti neurali sono leggermente consapevoli”, afferma che dovremmo rallentare il rilascio di “modelli con queste capacità completamente senza precedenti”, forse dovremmo smetterla di inginocchiarci davanti alla forza inarrestabile del progresso e riflettere su cosa stavano facendo. - Migliore manovrabilità per controllare meglio GPT-4
Un vantaggio importante che i clienti API hanno sempre avuto rispetto agli utenti occasionali (quelli nel parco giochi GPT o nel sito Web ChatGPT) è che potevano guidare il modello attraverso prompt di “sistema” che modificano e vincolano – post-ottimizzazione e pre-interazione – il comportamento del modello. Questa funzione sarà disponibile anche per gli utenti di ChatGPT: “Piuttosto che la classica personalità di ChatGPT con una verbosità, un tono e uno stile fissi, gli sviluppatori (e presto gli utenti di ChatGPT) possono ora prescrivere lo stile e l’attività della loro intelligenza artificiale descrivendo quelle indicazioni nel ‘ messaggio di sistema.” Brockman lo ha illustrato durante l’evento demo trasformando prima GPT-4 in un assistente programmatore AI per creare un bot Discord e poi un TaxGPT per redigere i suoi documenti fiscali. - Limitazioni e rischi (e modesti miglioramenti)
Per evitare l’hype – che è già inevitabile – OpenAI ha chiarito che GPT-4 migliora ma è ancora soggetto a tutti gli stessi tipi di problemi che avevano le versioni precedenti di GPT: inaffidabilità da allucinazioni ed errori di ragionamento, eccessiva sicurezza, vari pregiudizi sociali, contraddittorio sollecitazione e propensione al jailbreak (ad esempio, per creare disinformazione) e rischi per la privacy e la sicurezza informatica. Per limitare i rischi dei modelli simili a GPT-4, OpenAI ha istituito un team di esperti per testare in modo contraddittorio il modello: “Le capacità aggiuntive di GPT-4 portano a nuove superfici di rischio. Per comprendere l’entità di questi rischi, abbiamo coinvolto oltre 50 esperti di domini come i rischi di allineamento dell’IA a lungo termine, la sicurezza informatica, il rischio biologico e la sicurezza internazionale per testare in modo contraddittorio il modello”. Hanno anche migliorato la loro pipeline RLHF aggiungendo due componenti, “una serie aggiuntiva di istruzioni per la formazione RLHF rilevanti per la sicurezza e modelli di ricompensa basati su regole (RBRM)” che forniscono soluzioni per i casi in cui GPT-4 può fornire consigli dannosi su problemi non sicuri prompt o essere eccessivamente cauti quando il prompt è inoffensivo. Ciò si traduce in GPT-4 “82% in meno di probabilità di rispondere alle richieste di contenuti non consentiti”. - Un rilascio super chiuso: cattive notizie per la comunità AI
“GPT-4 è un modello in stile Transformer pre-addestrato per prevedere il token successivo in un documento, utilizzando sia i dati disponibili pubblicamente (come i dati Internet) sia i dati concessi in licenza da fornitori di terze parti. Il modello è stato quindi messo a punto utilizzando l’apprendimento per rinforzo dal feedback umano (RLHF). Dato sia il panorama competitivo che le implicazioni sulla sicurezza di modelli su larga scala come GPT-4, questo rapporto non contiene ulteriori dettagli sull’architettura (incluse le dimensioni del modello), l’hardware, il calcolo dell’addestramento, la costruzione del set di dati, il metodo di addestramento o simili. Non ci sono informazioni sulla specifica sottostante del modello. Come hanno sottolineato molti esperti di intelligenza artificiale, come Ben Schmidt, Emily M. Bender, Sebastian Raschka e altri, questo è molto negativo per la comunità di intelligenza artificiale, un cambiamento rispetto alle versioni precedenti di OpenAI e un segno dei tempi: concorrenza, profitti, e non responsabilità rispetto all’apertura riguardo alla ricerca e alla metodologia.
Will Douglas Heaven scrive per MIT Tech Review che “GPT-4 è il rilascio più segreto che l’azienda abbia mai pubblicato, segnando la sua piena transizione da laboratorio di ricerca senza scopo di lucro a società tecnologica a scopo di lucro”, a cui Thomas Wolf (Hugging Face co- fondatore) aggiunge: “OpenAI è ora un’azienda completamente chiusa con una comunicazione scientifica simile ai comunicati stampa per i prodotti”. - Microsoft ha rivelato che Bing Chat era sempre GPT-4
Il modello di “prossima generazione” che alimenta Prometheus (su misura per la ricerca), che a sua volta alimenta la chat di Bing, è sempre stato GPT-4, come confermato dai CVP Jordi Ribas e Yusuf Mehdi: Inoltre, sembra che Morgan Stanley potrebbe avere ragione ( almeno in parte): “Pensiamo che GPT 5 sia già in formazione”. Potrebbe arrivare molto prima di quanto ci aspetteremmo ora che OpenAI ha sviluppato l’infrastruttura per prevedere meglio il comportamento dei suoi modelli futuri. - Una breve raccolta di cosa può fare GPT-4
GPT-4 non sembrerà alla maggior parte delle persone una pietra miliare davvero significativa rispetto a ChatGPT, perché, per molti, quest’ultimo è stato il primo contatto che abbiano mai avuto con un potente modello linguistico: il salto from nothing to ChatGPT è piuttosto importante, anche perché la multimodalità non è ancora disponibile. Ma vedremo ancora capacità impressionanti provenienti da GPT-4 che ChatGPT non è in grado di realizzare.