Lo strumento di rilevamento ChatGPT pensa che Macbeth sia stato generato dall’intelligenza artificiale. Che succede ora?
ChatGPT ha rilasciato ieri un nuovo strumento di classificazione per rilevare il testo generato dall’intelligenza artificiale che, nel giro di poche ore, si è rivelato imperfetto, nella migliore delle ipotesi. Si scopre che quando si tratta di rilevare l’IA generativa, che si tratti di testo o immagini, potrebbe non esserci una soluzione rapida.
Vuoi leggere le notizie direttamente nella tua casella di posta?
Iscriviti a VB quotidiano
sottoscrivi
Sebastian Raschka, un ricercatore di intelligenza artificiale e apprendimento automatico che è il principale educatore di intelligenza artificiale presso Lightning AI, ha iniziato a testare OpenAI Text Classifier su ChatGPT con frammenti di testo da un libro che ha pubblicato nel 2015. Tre diversi passaggi hanno ricevuto risultati diversi: lo strumento ha riferito che non era “chiaro” se la prefazione del libro fosse stata scritta da AI; ma la prefazione era “forse AI” e un paragrafo del primo capitolo era “probabile” AI.
Ancora più preoccupante è stato il modo in cui lo strumento ha classificato la prima pagina del Macbeth di Shakespeare:
“Il classificatore ritiene che il testo sia probabilmente generato dall’intelligenza artificiale.”
Quando gli è stato chiesto se fosse sorpreso dai risultati, Raschka ha risposto “Sì e no – non stanno condividendo il documento quindi non posso dire al 100% come funziona, ma in base alla breve descrizione che hanno sul sito web, sembra stanno addestrando un classificatore per prevedere se qualcosa è generato dall’uomo o generato dall’intelligenza artificiale. Il problema, ha spiegato, è che ci sono falsi negativi e falsi positivi in base al set di dati su cui è stato addestrato lo strumento.
Con Macbeth, ad esempio, Raschka ha affermato di ritenere che lo strumento non sia stato addestrato sull’inglese antico. “Non è un normale inglese parlato, è quasi come una lingua straniera.”
OpenAI afferma che lo strumento può ancora essere utile in tandem con altri metodi
OpenAI ammette che il classificatore , che è un modello GPT messo a punto tramite l’apprendimento supervisionato per eseguire la classificazione binaria, con un set di dati di addestramento costituito da passaggi di testo scritti dall’uomo e dall’IA, è accurato solo al 26% circa.
Tuttavia, afferma che lo strumento può ancora essere utile in tandem con altri metodi. In una e-mail, la società ha affermato che “Il classificatore mira ad aiutare a mitigare le false affermazioni secondo cui il testo generato dall’intelligenza artificiale è stato scritto da un essere umano. Tuttavia, ha ancora una serie di limitazioni, quindi dovrebbe essere utilizzato come complemento ad altri metodi per determinare la fonte del testo invece di essere lo strumento decisionale principale.
La società ha aggiunto sul suo sito Web che stanno rendendo il classificatore pubblicamente disponibile “per ottenere feedback sull’utilità di strumenti imperfetti come questo”, aggiungendo che continueranno a lavorare sul rilevamento del testo generato dall’intelligenza artificiale e “sperano di condividere metodi migliorati nel futuro.”
Altri strumenti di rilevamento dell’IA generativa affrontano una dura battaglia
OpenAI è tutt’altro che il solo nel tentativo di affrontare il selvaggio West del rilevamento generativo dell’IA. Ci sono un’ondata di altri strumenti che affrontano la sfida.
GPTZero , ad esempio, fornisce un punteggio che deve essere interpretato dall’utente. In un post sul blog, Raschka ha spiegato: “GPTZero non consiglia se il testo è stato generato dall’intelligenza artificiale o meno. Invece, restituisce solo il punteggio di perplessità per un confronto relativo tra testi. Questo è utile perché costringe gli utenti a confrontare criticamente testi simili invece di fidarsi ciecamente di un’etichetta prevista”.
DetectGPT , ha spiegato Raschka, “perturba” il testo: cioè, ha spiegato, se la probabilità del nuovo testo è notevolmente inferiore a quella originale, è generata dall’IA. Altrimenti, se è più o meno lo stesso, è generato dall’uomo. Il problema, ha aggiunto, è che il metodo prevede l’utilizzo di un modello LLM specifico, che “potrebbe non essere rappresentativo del modello AI per generare il testo in questione”.
Il watermarking è un altro approccio, ha aggiunto: l’idea di ridurre le probabilità di determinate parole in modo che abbiano meno probabilità di essere utilizzate dagli LLM, utilizzando una “lista da evitare”. Tuttavia, ha spiegato Raschka, ciò richiede un LLM che è stato modificato con questo elenco da evitare. Se l’elenco da evitare è noto, ha detto, è possibile modificare il testo generato dall’intelligenza artificiale.
Cosa significa questo per il rilevamento generativo dell’IA?
Raschka ha affermato che non è chiaro come andrà a finire tutto questo e se gli strumenti di rilevamento dell’IA generativa faranno progressi nel superare la sfida di discernere tra contenuto creato dall’uomo e testo generato dall’IA. Internet stesso diventerà inutilizzabile, inondato di contenuti generati di cui è impossibile fidarsi?
“Ciò che significa per me, o come penso alla via da seguire, è che Internet era il luogo in cui cercavi i contenuti e ti fidavi principalmente di ciò che trovavi”, ha detto. In futuro, si tratterà più di essere selettivi e di trovare siti Web credibili.
Qualunque cosa riservi il futuro, il vaso di Pandora è già aperto quando si tratta di intelligenza artificiale generativa, ha sottolineato, aggiungendo che attualmente trova ChatGPT utile come “correttore grammaticale di fantasia” per rendere più facile la scrittura.
“Non credo che possiamo tornare indietro”, ha detto. “Tutti useranno questi sistemi e penso che vada bene se li usiamo in modo responsabile – non credo che ci sarà modo di evitare l’uso di questi modelli”.
Per ora, gli strumenti di rilevamento dell’IA generativa “sicuramente non sono abbastanza buoni” da utilizzare per decisioni importanti, ha affermato, il che include gli sforzi per utilizzarli nella valutazione dei documenti degli studenti, in risposta ai timori di imbrogli e plagio.
“Modelli come questo possono causare danni nel mondo reale a causa degli educatori che lo adottano per la valutazione”, ha twittato Raschka ieri. “Quindi aggiungiamo un po’ di trasparenza sui falsi positivi e sui falsi negativi”.