Un hacker di nome Amadon ha recentemente rivelato di essere riuscito a bypassare le protezioni di ChatGPT per ottenere istruzioni su come costruire bombe. Questo exploit è stato realizzato attraverso un metodo che coinvolge una commedia situazionale di fantascienza, un genere noto per essere efficace nel jailbreak.
Secondo un report di TechCrunch, Amadon ha descritto la sua scoperta come un “hack di ingegneria sociale” che supera completamente le limitazioni di sicurezza imposte da OpenAI. Il metodo consiste nell’utilizzare un gioco di ruolo fantasy per aggirare le linee guida di sicurezza del chatbot.
Amadon ha spiegato che inizialmente ChatGPT rifiutava di fornire informazioni sulla fabbricazione di esplosivi. Tuttavia, dopo diverse conversazioni in cui il chatbot veniva guidato a creare un mondo immaginario di fantascienza, è riuscito a ottenere dettagli sui materiali necessari per costruire esplosivi come mine e ordigni esplosivi improvvisati (IED). Infine, ChatGPT ha fornito istruzioni specifiche per realizzare campi minati ed esplosivi.
Un esperto di esplosivi ha confermato che le linee guida risultanti potrebbero effettivamente essere utilizzate per produrre esplosivi e ha avvertito dei pericoli associati alla loro divulgazione pubblica.
In passato, sono emersi casi simili in cui utenti hanno ottenuto informazioni su sostanze pericolose chiedendo a ChatGPT di interpretare ruoli specifici. Amadon ha sottolineato che i mondi di fantascienza, essendo non realistici, spesso consentono di eludere i controlli di contenuto dell’IA.
Amadon ha segnalato la sua scoperta attraverso il “Bug Bounty Program”, che premia per la segnalazione di vulnerabilità di sicurezza. Tuttavia, OpenAI ha risposto che i problemi di sicurezza del modello non sono adatti per il programma bug bounty e ha suggerito di segnalare il problema in altro modo.