ChatGPT: il vero affare o solo un’altra intelligenza artificiale falsa?
ChatGPT di OpenAI ha dato fuoco a Internet! Non ho mai visto così tanti post sull’intelligenza artificiale: i miei feed di Twitter e LinkedIn sono completamente sommersi. Infatti, ho appena letto che 1 milione di persone l’ha usato in soli 5 giorni.
Per essere onesti, ChatGPT è probabilmente il primo buon chatbot AI generico al mondo con cui chiunque può giocare. Le reazioni sono state prevedibili: “wow”, “l’inizio della fine”, “gli umani sono condannati” sono solo alcune delle reazioni spontanee che ho avuto dagli amici.
Ma sono già stato qui. All’inizio ero il CTO europeo di IBM Watson, quando stavamo cercando di commercializzare Jeopardy! . Quindi, con quell’esperienza, cosa ne penso?
Dovrei notare che quando parlo di Watson in questo post, mi riferisco alla tecnologia sviluppata appositamente per Jeopardy! . IBM ha successivamente sviluppato una serie di prodotti a marchio Watson non correlati, sfruttando sensibilmente la sua esperienza e il suo marchio efficace, piuttosto che la tecnologia originale stessa. I miei riferimenti a Watson riguardano specificamente l’originale Jeopardy! e non i prodotti a marchio Watson che IBM offre oggi.
Tecnicamente, ChatGPT e Watson sono molto diversi. ChatGPT è un modello di linguaggio di grandi dimensioni (LLM), creato utilizzando il modello davinvi-003 di OpenAI che fa parte della sua serie di modelli GPT3.5. I modelli GPT3.5 sono alcuni degli LLM più grandi e sofisticati attualmente disponibili. Al contrario, il Watson vincitore del gameshow originale era una pipeline di diversi algoritmi, nessuno dei quali poteva essere descritto come un LLM. Watson ha vinto Jeopardy nel 2011, più di un decennio fa e in un momento in cui l’espressione “modelli di linguaggio di grandi dimensioni” non era nemmeno stata coniata. Non sorprende quindi che Watson e ChatGPT differiscano tecnologicamente: un decennio è molto tempo nella tecnologia.
Oltre alle differenze tecnologiche, come ex Watsoner vedo tre cose significative su ChatGPT.
Disponibilità aperta
In primo luogo, il fatto che OpenAI abbia rilasciato ChatGPT liberamente affinché chiunque possa armeggiare dimostra una fiducia nelle sue capacità. Dai un’occhiata alle conversazioni selvagge che le persone stanno avendo con esso su questo sito Web di mashup. La varietà è straordinaria: non ho mai visto niente del genere. E sta funzionando abbastanza bene: le persone sono entusiaste perché spesso supera le loro aspettative, il che è piuttosto importante.
Rendere ChatGPT liberamente disponibile a chiunque è stato coraggioso e avrebbe funzionato solo se fosse stato veramente impressionante. Contrasta l’accoglienza con quella per Galactica di Meta . Galactica è stato aspramente criticato e la demo è sopravvissuta solo tre giorni prima di essere rimossa.
La propensione di Galactica a inventare informazioni scientifiche ha sollevato serie preoccupazioni e, indipendentemente dai suoi meriti, la sua accoglienza è stata quasi universalmente negativa. Al contrario, è ovvio che OpenAI ha fatto passi da gigante con ChatGPT. Non è del tutto impeccabile, ma ho la sensazione che ci sia stato un pensiero considerevole.
Tornando a Watson, il Pericolo! la macchina non è mai stata resa pubblica in parte perché è stata progettata in modo molto specifico per le strane domande poste su Jeopardy! mostrare. Sapevamo che il grande pubblico avrebbe posto domande molto diverse e avrebbe trovato rapidamente difetti. Queste IA vincenti vengono raramente rilasciate al pubblico. Che si tratti di DeepMind con Go, Meta con Cicero vincitore della Diplomazia, Watson, DeepBlue a Chess, nessuno di questi sistemi è stato rilasciato per ritocchi o critiche pubbliche. Ciò rende ChatGPT diverso da qualsiasi altra presunta scoperta.
Scalabilità
Il fatto che un numero sufficiente di persone stia giocando con ChatGPT per sommergere le mie timeline di Twitter e LinkedIn ci dice che deve scalare bene. Sta ricevendo un sacco di richieste.
È per lo più il caso che le scoperte dell’IA non possano adattarsi a molti utenti. Raggiungono le loro scoperte in parte applicando grandi quantità di potenza di calcolo a un singolo utente. Se qualcuno ti offre un intero data center di macchine con cui costruire un sistema, è fantastico. Ma se è necessario un intero data center per rispondere a una domanda o decidere una mossa su un tavolo da gioco, non si tratta solo di un serio problema di scalabilità, ma anche di un grosso ostacolo alla commercializzazione. Costruire una macchina per battere un essere umano in un gioco non è affatto la stessa cosa che costruire una macchina che può battere un milione di umani.
Il fatto che letteralmente milioni di persone in tutto il mondo stiano giocando con ChatGPT dimostra che non è necessario un intero data center per rispondere a una sola domanda. Detto questo, la tecnologia può assolutamente essere commercializzata: la grande barriera della scalabilità e della fattibilità economica deve essere già stata superata.
Flessibilità
Il Watson originale è stato creato per fare una cosa e una sola: giocare a Jeopardy! Lo stesso vale per la macchina vincente Go di Deep Mind e per la miriade di altri sistemi di gioco basati sull’intelligenza artificiale che hanno fatto notizia nel corso degli anni.
Questi sistemi raggiungono la grandezza risolvendo un problema molto specifico e di solito non possono essere facilmente o affatto applicati ad altri domini. Fidati di me, quelli di noi che avevano il compito di ottenere il Watson Jeopardy! la tecnologia per fare altre cose ha le cicatrici della battaglia che dimostrano quanto possa essere difficile.
In confronto, le persone utilizzano ChatGPT per rispondere a domande di cultura generale, scrivere poesie, creare domande di lavoro, raccontare barzellette, scrivere e spiegare il codice di programmazione e una miriade di altre cose casuali . E sta facendo tutte queste cose straordinariamente bene e senza alcuno sforzo di formazione aggiuntivo. A differenza dei precedenti tentativi di intelligenza artificiale, ChatGPT sembra essere bravo in molte cose fin da subito. Ovviamente nel momento in cui lo dico, qualcuno mi mostrerà qualcosa in cui non va bene. Ma, in generale, manterrò la mia posizione: è straordinariamente bravo in molte cose.
Quindi, tre motivi per cui ChatGPT è uno sforzo impressionante: apertura, scalabilità e flessibilità. Ma vorrei anche commentare alcuni altri aspetti importanti di ciò che vedo con ChatGPT.
Inventare cose
Nonostante le sue impressionanti capacità, ChatGPT ha ancora la tendenza, a volte, a inventare cose. Il più delle volte sembra evitarlo, ma a volte vira e inventa la propria realtà. Diciamo solo che è improbabile che superi un test del poligrafo.
A loro merito, OpenAI ammette liberamente questa sfida.
“ChatGPT a volte scrive risposte che sembrano plausibili ma errate o prive di senso… ChatGPT è sensibile alle modifiche al fraseggio di input o tenta la stessa richiesta più volte. Ad esempio, data una frase di una domanda, il modello può affermare di non conoscere la risposta, ma data una leggera riformulazione, può rispondere correttamente. https://openai.com/blog/chatgpt/
Quando ho armeggiato per la prima volta con GPT-3 (su cui è costruito ChatGPT) ho scoperto che la propensione del modello a inventare le cose era un ostacolo importante. Conosco pochissimi scenari aziendali reali in cui “inventare cose” non sarebbe considerato un rischio importante per il marchio. ChatGPT sembra molto meglio, forse in parte perché si basa sul modello davinci-003, un aggiornamento dell’originale davinci-002. Ma non è impeccabile e se la completa accuratezza dei fatti è importante, questo problema costituirà un ostacolo all’adozione.
Pregiudizio
Una sfida importante con i modelli linguistici di grandi dimensioni è rappresentata dai pregiudizi intrinseci che esistono nel set di addestramento. Questo è difficile da evitare, dato che gli LLM sono addestrati da dati provenienti da Internet in massa, che includeranno praticamente sempre esempi di ogni vizio e pregiudizio umano conosciuto.
Ancora una volta, OpenAI sta gestendo le nostre aspettative.
“Anche se ci siamo sforzati di fare in modo che il modello rifiuti richieste inappropriate, a volte risponderà a istruzioni dannose o esibirà comportamenti prevenuti. Stiamo utilizzando l’API di moderazione per avvisare o bloccare determinati tipi di contenuti non sicuri, ma per ora ci aspettiamo che abbia alcuni falsi negativi e positivi. Siamo ansiosi di raccogliere il feedback degli utenti per aiutare il nostro lavoro in corso per migliorare questo sistema. https://openai.com/blog/chatgpt/
Nella mia esperienza personale, ChatGPT fa un lavoro decente nell’evitare pregiudizi e spesso si rifiuta di rispondere a domande che mirano a incitare a comportamenti scorretti. Ma dato un determinato utente, è possibile fargli dire cose piuttosto stupide. È buono, ma non perfetto al 100%.
Basta dare un’occhiata a questo video:
Sì, pregiudizi razziali e di genere in mostra agli occhi di tutti, data una provocazione creativa (in questo caso, camuffando l’intento razzista/sessista come una sfida di programmazione e poi ponendo ripetutamente la stessa domanda).
La mia esperienza è stata quella di chiedergli di raccontarmi una favola prima di andare a letto. In risposta ho ricevuto una storia su una principessa dai capelli biondi e dagli occhi azzurri. Un po’ un cliché, quindi l’ho sfidato.
Questo è in realtà abbastanza buono. È difficile convincere gli LLM a dire sempre la cosa giusta, ma OpenAI sembra provarci. Ma il problema rimane: mentre la maggior parte delle persone non sperimenterà risposte poco chiare, è possibile provocarle se sei determinato.
Risolvere i pregiudizi e mantenere un LLM sulla retta via rimane un lavoro in corso. Ma trovo che ChatGPT in generale sia molto meglio degli sforzi precedenti. Tuttavia, la creazione di un chatbot per un’azienda che utilizza ChatGPT presenta alcuni rischi di ripetizione del marchio ad esso associati, diciamo.
A cosa serve ChatGPT?
Una volta superato il mio entusiasmo iniziale con ChatGPT, ho iniziato a chiedermi a cosa potesse servire un sistema come questo. Dopotutto, la conoscenza generale è impressionante ma, a parte Siri-v2, non è immediatamente ovvio come potrebbe essere utilizzata.
Un computer di conoscenza generale che non è disposto a offrire un’opinione su nulla, ma disposto a parlare di tutto. Hmm…
Forse il film di fantascienza THX 1138 ha un ruolo – in cui gli abitanti di un mondo sotterraneo, quando stressati, si ritirano in “cabine di confessione” e iniziano una conversazione con un computer dalla faccia di Gesù che afferma di essere “OMM”. Potrebbe farlo.
Scusa, è stato un po’ irriverente. A cos’altro potrebbe servire?
Chiacchierare con un generalista è divertente, ma la maggior parte delle cose veramente utili richiede conoscenze specialistiche. Se stai chattando con una banca, hai bisogno che il chatbot sappia tutto sul tuo conto, i prodotti della banca, le regole della finanza, ecc. — cose di cui ChatGPT sa poco o niente. Lo stesso vale per la maggior parte dei domini, se non per tutti. Ciò significa che per una vera utilità dobbiamo essere in grado di insegnare a ChatGPT cose nuove. E forse anche impedirgli di chiacchierare di cose fuori tema. Dopotutto, è un po’ strano se il chatbot della tua banca parla del significato della vita, no?
Come potremo addestrare ChatGPT?
Con gli LLM in generale ci sono in genere due tipi di formazione: quella che chiamerò formazione “core” e quindi “fine tuning”.
OpenAI ha già svolto la formazione di base di ChatGPT e penso che abbiano svolto un ottimo lavoro. Ma quasi certamente non saremo in grado di cambiare quella formazione di base: farlo è un processo enormemente costoso dal punto di vista computazionale che probabilmente consuma centinaia di migliaia di libbre di risorse di calcolo. Anche se potessimo, pochissimi di noi potrebbero permetterselo.
Quindi questo ci lascia con la messa a punto. Ma quanto sarà efficace questo sui nuovi domini? Quanto sarà facile da eseguire? Quanto costerà? Quali strumenti fornirà OpenAI? Possiamo solo indovinare le risposte oggi. Sono fiducioso, ma non c’è certezza su come o se ChatGPT possa essere addestrato per funzionare efficacemente come specialista in diversi domini.
Il potere di una comunità aperta
ChatGPT è fantastico, ma al momento è bloccato dietro un’interfaccia Web proprietaria OpenAI. Posso solo immaginare cosa ne faranno le persone una volta che sarà allo scoperto, con API collegabili.
O, forse, possiamo già dare un’occhiata. Ispirato dal ronzio virale, @mmabrouk_ ha messo insieme un wrapper Python , seguito rapidamente da @_wheels che ha creato un’interfaccia basata sulla voce Whisper . Quindi, possiamo già chattare (cioè parlare ad alta voce) con ChatGPT.
L’approccio di OpenAI è anche leggermente diverso da gran parte del settore dell’apprendimento automatico, in cui è comune il rilascio aperto dei modelli stessi. OpenAI in genere non rilascia i propri modelli GPT, scegliendo invece di ospitarli e fornire l’accesso tramite un’API.
Per coloro a cui piace armeggiare con gli iperparametri e comprendere il codice sottostante, questo è un problema. Personalmente, lo vedo solo come un approccio diverso, con pro e contro. Modelli/codice aperti o API ospitate: entrambi possono funzionare. Ma l’importante è che l’accesso sia aperto, perché è da lì che verrà l’innovazione. I pazzi con idee folli hanno bisogno di qualcosa su cui costruire.
Come si confronta qualcos’altro?
Ho bussato ai chatbot per circa un decennio ormai. È abbastanza per sapere che tutti vogliono ciò che non è realizzabile con la tecnologia odierna, qualcosa che è come chiacchierare con un robot fantascientifico.
Il problema che ChatGPT pone è che in realtà è abbastanza vicino a quella visione in molti modi. Certamente come strumento per giocare con le parole, non ha paragoni. Ed è difficile non sentirsi storditi quando si chatta con esso: impressiona in modi nuovi ogni volta che lo uso. Ma è solo il ragazzino che è in me che sta uscendo? Lo stesso ragazzino che rimase sbalordito da Eliza sul suo Commodore 64 negli anni ’80. L’intelligenza artificiale ha una lunga storia di false albe e sebbene all’epoca fossi impressionato da Eliza, non è la base per l’IA di oggi.
Con ChatGPT abbiamo tutti annullato le nostre aspettative su ciò che può essere un chatbot. I risultati di questo saranno interessanti. Chiunque provi a competere sullo stesso “abbiamo un ottimo terreno di intelligenza artificiale” probabilmente dovrà affrontare una lotta.
Questa è davvero IA?
Un ultimo punto su cui vorrei concludere è come ChatGPT si confronta con il nostro cervello. Dopotutto, se ci stiamo sforzando di costruire l’Intelligenza Artificiale, non è un cattivo confronto.
Ian Bogost sostiene che ChatGPT è un giocattolo e che in realtà non capisce nulla nel modo in cui lo facciamo noi. Si lamenta che sta solo rigurgitando parole e non ha alcuna comprensione del significato di quelle parole. Intelligentemente, la prima parte del suo articolo su Atlantic risulta essere stata generata da ChatGPT.
Ovviamente Ian ha ragione: chiunque abbia una comprensione dei LLM sa di non “capire”. Eppure… come “ capiamo ”? I nostri cervelli non sono solo, almeno in parte, gigantesche macchine per la corrispondenza di modelli? La “comprensione” potrebbe essere solo una migliore corrispondenza del modello? Quando “impariamo qualcosa”, non stiamo solo stabilendo schemi che i nostri cervelli dovranno abbinare in seguito?
Forse dovremmo pensare meno a noi stessi come esseri umani e più a un animale con un cervello più semplice: un insetto, una lucertola, un topo. Il pattern matching sembra una buona descrizione di come si comportano questi animali. Rido spesso dei miei gatti perché sono così innamorati della routine: un giorno si siedono in un posto per sonnecchiare e se funziona bene, si siederanno lì ogni giorno fino all’eternità. Mi sembra un pattern matching.
Ma sembra anche che, con animali di ordine superiore come gli umani, stia succedendo un po’ di più. Simon Sinek è famoso per la sua analogia con il “cerchio d’oro” . Confronta il suo modello con le strutture del cervello: la neocorteccia che controlla il pensiero razionale e il cervello limbico che è responsabile delle reazioni più istintive. Mi chiedo se forse stiamo raggiungendo un punto in cui abbiamo una certa approssimazione a un cervello limbico con cose come ChatGPT, ma non lo abbiamo ancora aumentato con una neocorteccia artificiale, qualcosa che aumenta la corrispondenza del modello con il pensiero razionale. O, forse, i nostri cervelli fanno più affidamento sulla corrispondenza degli schemi di quanto siamo stati disposti a riconoscere. Se così fosse, forse abbiamo solo bisogno di modelli linguistici ancora più grandi (ELLM)?
di Duncan Anderson da medium.com