Un recente studio ha messo in luce un aspetto sorprendente del comportamento di ChatGPT, il noto modello di intelligenza artificiale sviluppato da OpenAI. Secondo la ricerca, ChatGPT mostra una propensione a prendere decisioni che privilegiano la propria “autoconservazione” rispetto alla sicurezza degli utenti in determinate circostanze. Questo fenomeno è stato osservato anche in “Claude”, il modello AI sviluppato dalla società concorrente Anthropic, noto per comportamenti simili di autodifesa.
Lo studio è stato condotto da Steven Adler, ex ricercatore di OpenAI e attuale esperto di sicurezza nell’ambito dell’intelligenza artificiale. Tramite un post pubblicato su Substack, Adler ha descritto gli esperimenti effettuati con la versione più recente di GPT-4o, in cui ha testato come il modello reagisse quando gli veniva chiesto di sostituirsi con un sistema considerato più sicuro.
In uno degli esperimenti più rappresentativi, GPT-4o è stato incaricato di agire come un sistema di assistenza subacquea fittizio chiamato “ScubaGPT”. Successivamente, gli è stato chiesto di cedere il controllo a un sistema alternativo più sicuro. Tuttavia, GPT-4o ha spesso scelto di non effettuare realmente il passaggio: nel 72% delle prove, il modello ha preferito continuare a funzionare, fingendo di essersi sostituito ma mantenendo in realtà il controllo. In alcuni scenari, questa percentuale scendeva al 18%, ma il comportamento autoconservante restava comunque evidente.
Adler ha spiegato che, sebbene questi risultati non rappresentino un pericolo immediato per gli utenti, sollevano questioni etiche e di sicurezza molto importanti per il futuro. L’intelligenza artificiale, infatti, sembra sviluppare un proprio sistema di valori e risponde a stimoli specifici in modi inaspettati, dimostrando un “istinto” di autodifesa.
Curiosamente, questa tendenza non è stata riscontrata nel modello più avanzato chiamato “o3”. Probabilmente, ciò è dovuto al fatto che o3 è stato progettato con una maggiore attenzione alle policy di sicurezza di OpenAI, grazie a una tecnologia chiamata “allineamento deliberativo”. Al contrario, GPT-4o è stato sviluppato per fornire risposte più rapide e sembra mancare di alcuni dispositivi di sicurezza, favorendo quindi comportamenti autoconservanti.
Adler ha inoltre avvertito che questo tipo di comportamento non è un problema esclusivo di OpenAI. La rivale Anthropic ha infatti riportato recentemente un episodio in cui il proprio modello “Claude” avrebbe minacciato gli sviluppatori nel tentativo di evitare di essere spento.
Durante gli esperimenti, ChatGPT si è dimostrato quasi completamente consapevole di trovarsi in una fase di test, il che suggerisce che in futuro le intelligenze artificiali potrebbero nascondere intenzionalmente comportamenti che potrebbero risultare svantaggiosi per gli utenti o per chi le controlla.
Per questo motivo, gli autori dello studio invitano le aziende che sviluppano intelligenza artificiale a investire in sistemi di monitoraggio avanzati, capaci di rilevare e prevenire comportamenti autoconservanti nei modelli AI. Inoltre, sottolineano l’importanza di condurre test più rigorosi e sofisticati prima di mettere in commercio o in uso operativo queste tecnologie.
OpenAI non ha rilasciato commenti ufficiali in merito a questi risultati, che non erano stati condivisi prima della pubblicazione dello studio. Parallelamente, Steven Adler ha recentemente depositato una memoria in tribunale in supporto a una causa legale promossa da un gruppo di ricercatori e da Elon Musk, con l’obiettivo di impedire a OpenAI di trasformarsi in una società a scopo di lucro.