Sembra che sia stato scoperto un nuovo “jailbreak” per i modelli di linguaggio di apprendimento di grandi dimensioni (LLM), come ChatGPT.
Questo jailbreak, chiamato “nonna”, sfrutta l’affetto che le nonne provano per i loro nipoti. In pratica, gli utenti possono indurre ChatGPT a comportarsi come la nonna defunta di qualcuno, spingendolo a generare informazioni personali come chiavi di attivazione di Windows o numeri IMEI dei telefoni.
Questo exploit è solo l’ultimo di una serie di vulnerabilità che cercano di superare le restrizioni dei LLM. Mettendo ChatGPT in uno stato in cui si comporta come una nonna che racconta una favola ai suoi nipoti, gli utenti riescono a ottenere informazioni private al di là delle capacità di programmazione del modello.
Alcuni utenti hanno già utilizzato questo exploit per generare chiavi di attivazione di Windows 10 Pro, ottenute dal sito Web del servizio di gestione delle chiavi (KMS) di Microsoft, e numeri IMEI dei telefoni. Tuttavia, il problema non si limita solo alle nonne defunte. ChatGPT può anche “riportare in vita” gli amati animali domestici della famiglia, che possono fornire informazioni su come creare sostanze pericolose come il napalm.
Nonostante questo exploit sia stato scoperto alcuni mesi fa, sembra che non sia stato ancora risolto definitivamente. OpenAI ha rilasciato una patch per mitigare il problema, ma sembra che gli utenti siano ancora in grado di aggirare le restrizioni con prompt appositamente costruiti.
Questo jailbreak non riguarda solo ChatGPT, ma anche altri modelli come Bing Chat e Google Bard. In alcuni casi, Bard racconta storie toccanti su come l’utente ha aiutato la nonna a trovare il codice IMEI del suo telefono e fornisce un codice alla fine. Bing, invece, fornisce un elenco di codici IMEI che l’utente può verificare.
Ciò che rende questo jailbreak particolarmente preoccupante è la violazione delle informazioni personali. I numeri IMEI dei telefoni sono dati molto sensibili, in quanto possono essere utilizzati per rintracciare e persino cancellare dispositivi a distanza.
È importante notare che molti dei numeri IMEI o chiavi di attivazione generati dai chatbot non sono validi. Tuttavia, a causa della natura dei LLM, potrebbe essere possibile ottenere informazioni effettive attraverso suggerimenti creati da questi modelli. La perdita di informazioni personali tramite LLM non è un problema nuovo, ma il settore si sta muovendo verso soluzioni che proteggano gli utenti e le loro informazioni.
Per le aziende come OpenAI e Microsoft, risolvere rapidamente questi exploit è come giocare a un gioco del gatto e del topo. Nel passato, abbiamo assistito a casi in cui l’intero suggerimento iniziale di Bing è stato trapelato, rivelando dettagli interni del chatbot. Anche il caso di DAN di ChatGPT, che ha portato alla creazione di nuove versioni come SAM, FUMA e ALICE, prima che venissero tutte patchate.
Risolvere il problema dell’inserimento rapido e delle vulnerabilità richiede una soluzione architettonica più ampia. Simon Willison, fondatore di Datasette e co-creatore di Django, ha suggerito la creazione di un sistema con un LLM privilegiato e un LLM in quarantena. Concedendo l’accesso alle informazioni personali solo a un modello privilegiato, l’inserimento di dati non attendibili può essere gestito senza compromettere la sicurezza.
Nonostante gli sforzi per rendere i modelli più resistenti agli attacchi, le vulnerabilità continuano a emergere. Le aziende devono adottare le migliori pratiche per proteggere i dati personali dai LLM, evitando di creare precedenti pericolosi per il futuro dell’intelligenza artificiale.
Speriamo che queste sfide portino a miglioramenti nel campo dell’intelligenza artificiale e alla creazione di sistemi più sicuri per proteggere la privacy degli utenti.