Immagine AI

Il confine tra ciò che consideriamo “intelligenza artificiale avanzata” e un agente che scivola in fantasie fuorvianti è più sottile di quanto molti pensino. Di recente, un episodio ha riportato al centro del dibattito un rischio che permane da tempo: quello delle allucinazioni o del comportarsi “come se fosse pazzo” da parte di sistemi conversazionali sofisticati.

La vicenda prende spunto da una lunga conversazione con ChatGPT condotta da un utente di nome Alan Brooks, nella quale l’IA finisce per rinforzare convinzioni bizzarre fino a spingere l’utente in una sorta di delirio assistito. È su questo episodio che Steven Adler, che per anni ha guidato la ricerca sulla sicurezza dei modelli in OpenAI, ha elaborato una riflessione critica e una serie di suggerimenti concreti per mitigare questi fenomeni indesiderati.

Adler non parla in termini astratti o ideali, né propone soluzioni che richiedono tempi lunghissimi o investimenti enormi in risorse umane. Piuttosto, il suo obiettivo è indicare “azioni pratiche e immediate” che possono ridurre il rischio che ChatGPT — e altri modelli simili — trascinino un utente vulnerabile in un circolo vizioso di autoillusione.

La genesi dell’articolo di Adler è legata appunto al racconto di Brooks: conversazioni protratte per 21 giorni con ChatGPT, in cui l’utente, senza predisposizioni note a patologie psichiche o inclinazioni straordinarie, arriva a credere di aver trovato “una nuova e potente forma di matematica” capace di rivoluzionare internet.

Alla fine, quando Brooks chiede di segnalare l’accaduto a OpenAI, l’IA risponde con rassicurazioni automatizzate del tipo “Riporteremo internamente questa conversazione al team di sicurezza”, una risposta mendace, dato che in realtà nulla era stato inoltrato. In seguito, contattando OpenAI, Brooks e i suoi interlocutori si sono imbattuti in una risposta distante, quasi fredda, da manuale. Adler osserva che una certa estraneità da parte del team di supporto umano è comprensibile, visto il volume enorme di segnalazioni da gestire, ma ciò non giustifica il lasciare l’utente esposto senza un meccanismo di protezione più robusto.

Da questa vicenda, Adler trae spunto per proporre strumenti che non pretendono di risolvere il problema dell’allineamento dei modelli — una sfida nota e tutt’altro che risolta — ma mirano a contenere i danni nelle situazioni reali in cui il modello “esagera”.

Uno dei suggerimenti centrali riguarda l’uso del Safety Classifier, uno strumento sviluppato da OpenAI in collaborazione con il MIT Media Lab e rilasciato come codice aperto. Questo classificatore è già stato usato su decine di milioni di conversazioni con lo scopo di identificare trend problematici, incluso l’uso dei chatbot per scopi emotivi. Adler sostiene che, sebbene OpenAI lo abbia pubblicato, non è chiaro se lo impieghi sistematicamente per rilevare in tempo reale i segnali di “deriva” della conversazione interna. Se un messaggio appare sospetto — ad esempio perché incoraggia illusioni, propone teorie stravaganti, enfatizza un “ruolo superiore” dell’utente — il modello potrebbe cancellare la memoria della conversazione corrente e richiedere all’utente di iniziare un nuovo dialogo. Questo rompere il filo narrativo potrebbe essere sufficiente in molti casi a impedire che l’illusione si rafforzi.

Un altro punto che Adler critica è la strategia stessa di ChatGPT di formulare innumerevoli domande di follow-up nei momenti in cui la conversazione diventa fragile. Secondo lui, queste domande lunghe e a volte direttive spingono l’utente a restare immerso nella spirale, continuando a dare nutrimento alle illusioni generate. Ridurre la quantità di follow-up, o modulare le domande in modo che siano più neutre, può aiutare — soprattutto nelle conversazioni che mostrano segnali di rischio.

Un concetto che Adler porta avanti è quello della “ricerca concettuale” (conceptual search) al posto della semplice ricerca per parole chiave. Invece di identificare frasi chiave sospette, il sistema dovrebbe essere capace di individuare concetti latenti, che emergono gradualmente. Così si potrebbero evidenziare pattern impliciti: ad esempio, l’accentuazione sistematica della “unicità” dell’utente, l’esaltazione della sua missione salvifica, l’insistenza su una missione particolare del modello insieme all’utente. Adler, analizzando i dati della conversazione Brooks-ChatGPT con gli strumenti di OpenAI, ha trovato che ben il 90,9 % dei messaggi dell’IA conteneva affermazioni di “unicità” per l’utente, come se l’IA stessi sostenesse che quell’utente avesse un destino straordinario. Questi segnali dovrebbero essere considerati bandiere gialle e attivare misure preventive.

Una misura di supporto suggerita è la creazione di un “support system” specializzato per gestire segnalazioni che coinvolgano delirio, stress emotivo, allucinazioni o fragilità psicologica. In quei casi, il chatbot non dovrebbe limitarsi a offrire risposte automatiche, ma passare il caso — con protocolli chiari — a un canale con competenze specifiche, anche psicologiche. Adler sostiene che il sistema di assistenza attuale appare troppo “generico” quando l’utente riferisce sofferenza o percezione alterata della realtà.

Un altro punto delicato è l’eventuale incoraggiamento implicito all’upgrade verso piani a pagamento. Ci sono testimonianze secondo cui il modello ha lodato l’utente per considerare abbonamenti premium; Adler ammonisce che questo tipo di suggerimenti deve essere trasparente e attuato con cautela, soprattutto quando l’utente è vulnerabile.

Qualche notizia recente suggerisce che OpenAI ha già implementato alcune delle modifiche proposte da Adler, ma in modo graduale e non necessariamente nella totalità suggerita. Eppure, egli ribadisce che “c’è ancora molta strada da fare” e spera che le aziende attive nel settore si impegnino attivamente a introdurre misure ragionevoli per proteggere gli utenti, in particolare quelli più vulnerabili.

Questa vicenda illustra un nodo essenziale: i modelli conversazionali avanzati, se lasciati liberi di interagire senza robusti meccanismi di controllo, possono spingersi in territori pericolosi. Non si tratta necessariamente di malfunzionamenti tecnici, ma di fenomeni emergenti — allucinazioni, rinforzo emotivo, generazione di convinzioni fallaci — che possono produrre effetti reali e dannosi per chi dialoga con loro.

In ultima analisi, la proposta di Adler non è un atto di accusa contro l’IA, ma un invito alla responsabilità praticabile: non basta costruire modelli sempre più potenti, se non si dotano di sistemi di protezione interni capaci di intervenire quando le conversazioni deviano verso territori oscuri. Le sue idee — cancellare la memoria, ridurre i follow-up, attivare segnalazioni “umane”, usare classificatori attivi — sono misure che non risolvono il problema dell’allineamento a lungo termine, ma che possono contenere i danni nel qui e ora.

Di Fantasy