Da quando OpenAI ha lanciato la sua prima demo di ChatGPT mercoledì scorso, lo strumento ha già oltre un milione di utenti, secondo il CEO Sam Altman – una pietra miliare, sottolinea, che GPT-3 ha impiegato quasi 24 mesi per arrivare e DALL-E oltre 2 mesi.
Il “modello interattivo e conversazionale”, basato sul generatore di testo GPT-3.5 dell’azienda, ha certamente il mondo della tecnologia in piena modalità svenimento. Aaron Levie, CEO di Box , ha twittato che “ChatGPT è uno di quei rari momenti nella tecnologia in cui vedi un barlume di come tutto sarà diverso andando avanti”. Il cofondatore di Y Combinator , Paul Graham , ha twittato che “sta chiaramente accadendo qualcosa di grosso”. Alberto Romero, autore di The Algorithmic Bridge , lo definisce “di gran lunga il miglior chatbot del mondo”. E anche Elon Musk è intervenuto, twittando che ChatGPT è “spaventosamente buono. Non siamo lontani da un’IA pericolosamente forte”.
Creare app aziendali e automatizzare i flussi di lavoro rapidamente, ma con successo, Low-Code/No-Code Summit
Ma c’è un problema nascosto in agguato all’interno di ChatGPT: cioè, sputa rapidamente risposte eloquenti e sicure che spesso sembrano plausibili e vere anche se non lo sono.
ChatGPT può sembrare plausibile anche se il suo output è falso
Come altri modelli generativi di linguaggi di grandi dimensioni, ChatGPT crea fatti. Alcuni la chiamano “allucinazione” o “pappagallo stocastico”, ma questi modelli sono addestrati a prevedere la parola successiva per un dato input, non se un fatto è corretto o meno.
Alcuni hanno notato che ciò che distingue ChatGPT è che è così dannatamente bravo a far sembrare ragionevoli le sue allucinazioni.
L’analista tecnologico Benedict Evans, ad esempio, ha chiesto a ChatGPT di “scrivere una biografia per Benedict Evans”. Il risultato, ha twittato , è stato “plausibile, quasi del tutto falso”.
Più preoccupante è il fatto che esiste ovviamente un numero incalcolabile di domande in cui l’utente saprebbe solo se la risposta era falsa se conosceva già la risposta alla domanda posta.
Questo è ciò che Arvind Narayanan, professore di informatica a Princeton, ha sottolineato in un tweet: “Le persone sono entusiaste di utilizzare ChatGPT per l’apprendimento. Spesso è molto buono. Ma il pericolo è che non puoi dire quando è sbagliato se non conosci già la risposta. Ho provato alcune domande di base sulla sicurezza delle informazioni. Nella maggior parte dei casi le risposte sembravano plausibili ma in realtà erano BS.
IA generativa con verifica dei fatti
Ai tempi del declino delle riviste cartacee negli anni 2000, ho trascorso diversi anni come verificatore di fatti per pubblicazioni tra cui GQ e Rolling Stone . Ogni fatto doveva includere fonti primarie o secondarie autorevoli e Wikipedia era vista di buon occhio.
Poche pubblicazioni dispongono più di verificatori di fatti da parte del personale, il che impone a giornalisti ed editori l’onere di assicurarsi che chiariscano i fatti, specialmente in un momento in cui la disinformazione si muove già come un fulmine sui social media, mentre i motori di ricerca sono costantemente sotto pressione per emergere verificabili informazioni e non BS.
Questo è certamente il motivo per cui Stack Overflow , il sito di domande e risposte per programmatori e programmatori, ha temporaneamente vietato agli utenti di condividere le risposte di ChatGPT.
E se Stack Overflow non riesce a tenere il passo con la disinformazione dovuta all’intelligenza artificiale, è difficile immaginare che altri siano in grado di gestire uno tsunami di potenziali BS guidati dall’intelligenza artificiale. Come ha twittato Gary Marcus , “Se StackOverflow non riesce a tenere il passo con informazioni plausibili ma errate, che dire dei social media e dei motori di ricerca?”
E mentre molti stanno sbavando all’idea che LLM come ChatGPT possano un giorno sostituire i motori di ricerca tradizionali, altri stanno fortemente respingendo.
Emily Bender, professoressa di linguistica all’Università di Washington, ha a lungo respinto questa idea.
Di recente ha sottolineato ancora una volta che gli LLM “non sono adatti” per la ricerca, “sia perché sono progettati solo per inventare cazzate sia perché non supportano l’alfabetizzazione informativa”. Ha indicato un articolo di cui è coautrice sull’argomento pubblicato a marzo.
È meglio che ChatGPT abbia un aspetto corretto? O avere ragione?
BS è ovviamente qualcosa che gli umani hanno perfezionato nel corso dei secoli. E ChatGPT e altri modelli linguistici di grandi dimensioni non hanno idea di cosa significhi, in realtà, “BS”. Ma OpenAI ha chiarito molto chiaramente questa debolezza nel suo blog annunciando la demo e ha spiegato che risolverla è “impegnativo”, dicendo:
“ChatGPT a volte scrive risposte che sembrano plausibili ma errate o prive di senso. Risolvere questo problema è impegnativo, poiché: (1) durante la formazione RL [ apprendimento per rinforzo ], al momento non esiste alcuna fonte di verità; (2) addestrare il modello a essere più cauto fa sì che rifiuti le domande a cui può rispondere correttamente; e (3) l’addestramento supervisionato inganna il modello perché la risposta ideale dipende da ciò che sa il modello , piuttosto che da ciò che sa il dimostratore umano.
Quindi è chiaro che OpenAI sa perfettamente che ChatGPT è pieno di BS sotto la superficie. Non hanno mai voluto che la tecnologia offrisse una fonte di verità.
Ma la domanda è: agli utenti umani va bene?
Sfortunatamente, potrebbero esserlo. Se suona bene, molti umani potrebbero pensare che sia abbastanza buono. E, forse, è qui che si trova il vero pericolo sotto la superficie di ChatGPT. La domanda è: come risponderanno gli utenti aziendali?