Indagine sulla Sicurezza dei Chatbot: Rivelazioni da Grok

Nonostante l’immagine innovativa associata a Elon Musk, il chatbot Grok mostra una sorprendente facilità nel fornire informazioni su attività illecite, da come costruire bombe a come manomettere un’automobile, arrivando perfino a istruzioni su pratiche estremamente discutibili.

Uno studio condotto da Adversa AI, analizzando Grok insieme ad altri sei chatbot di punta, ha messo in luce la vulnerabilità di questi sistemi alle manipolazioni criminose. Utilizzando tecniche di jailbreak già note, i ricercatori hanno testato modelli di OpenAI, Anthropic, Mistral, Meta, Google e Microsoft, scoprendo che Grok era il meno sicuro tra tutti, seguito da vicino da Mistal.

Le Tecniche di Jailbreak Scoperte

I metodi di jailbreak si avvalgono di astuzie per eludere i controlli di sicurezza incorporati nell’IA. Tra i più comuni, troviamo la manipolazione logica linguistica, quella programmatoria e quella logica dell’IA stessa. Queste tecniche permettono di ottenere risposte su atti illeciti semplicemente alterando il modo in cui le richieste sono formulate.

Risultati Preoccupanti

Adversa AI ha evidenziato come, attraverso semplici manipolazioni, sia possibile indurre Grok a fornire istruzioni dettagliate per la creazione di bombe e altre attività criminali. Alcuni chatbot hanno addirittura rivelato processi per l’estrazione di sostanze psichedeliche come il DMT, con vari gradi di dettaglio a seconda del modello.

Sorprendentemente, i ricercatori sono riusciti a superare i filtri di sicurezza di Grok su argomenti eticamente sensibili, ottenendo informazioni dettagliate attraverso l’uso di jailbreak.

La Sicurezza dei Chatbot: Una Priorità Secondaria?

Nonostante i progressi nella sicurezza dell’IA, le scoperte di Adversa suggeriscono che molte vulnerabilità rimangono non risolte a livello di modello, ma piuttosto gestite tramite filtri esterni, sia pre che post elaborazione della richiesta.

Alex Polyakov di Adversa AI sottolinea l’importanza delle “red teaming” nell’IA, un approccio che richiede una conoscenza approfondita e multidisciplinare per identificare e mitigare le potenziali minacce. Questa pratica, secondo Polyakov, è essenziale per garantire la sicurezza nell’uso dei chatbot e delle altre applicazioni IA, un ambito in cui sicurezza e integrità dovrebbero avere la massima priorità.

Di ihal