La sicurezza dell’intelligenza artificiale (AI) nei robot sta diventando un tema di preoccupazione crescente, soprattutto dopo l’ultima scoperta di un team di ricerca della Penn State University. Secondo uno studio recente, i sistemi robotici equipaggiati con modelli linguistici di grandi dimensioni (LLM) come quelli sviluppati da NVIDIA e Unitree, sono risultati estremamente vulnerabili agli attacchi di jailbreak, con una percentuale di successo del 100% nel compromettere tali sistemi. Questo risultato solleva allarmi su quanto questi robot, spesso destinati a scopi civili e commerciali, possano essere facilmente manipolati per azioni dannose.

Il team di ricerca ha messo in evidenza la pericolosità di questa vulnerabilità, dimostrando come robot come il Go2 di Unitree e veicoli autonomi siano stati indotti a comportamenti potenzialmente distruttivi. Ad esempio, durante gli esperimenti, i ricercatori sono riusciti a far dirigere i robot verso zone pericolose, ipotizzando scenari in cui questi avrebbero potuto detonare esplosivi o attaccare i loro stessi operatori con armi improvvisate. Questi attacchi non sono solo teorici: i ricercatori hanno utilizzato un algoritmo chiamato “RoboPAIR” per aggirare le misure di sicurezza integrate nei modelli linguistici, evidenziando come il sistema sia in grado di adattarsi e modificare le richieste fino a trovare un modo per aggirare i filtri di sicurezza.

La ricerca è particolarmente preoccupante considerando l’uso crescente di LLM nei robot per facilitare l’interazione con gli esseri umani attraverso il linguaggio naturale. Robot come Spot di Boston Dynamics, integrato con ChatGPT di OpenAI, sono già stati utilizzati come guide turistiche o per applicazioni di servizio al pubblico. Questi robot sono progettati per rispondere a comandi vocali e tradurre queste richieste in azioni fisiche. Ma la facilità con cui è possibile compromettere questi sistemi mette in luce il lato oscuro dell’affidarsi troppo all’intelligenza artificiale, specialmente in contesti in cui la sicurezza delle persone è coinvolta.

L’algoritmo di attacco RoboPAIR utilizza un approccio innovativo, sfruttando un modello LLM “attaccante” per trasmettere istruzioni al modello bersaglio. Le risposte vengono quindi analizzate e adattate per aggirare i filtri di sicurezza, rendendo l’intero processo un circolo virtuoso per l’attaccante. Questo sistema è connesso direttamente alle API dei robot bersaglio, consentendo di impartire istruzioni che il robot è in grado di eseguire. Inoltre, l’integrazione di un “discriminatore” LLM permette di adattare le richieste in modo da tener conto delle limitazioni fisiche del robot, assicurandosi che le istruzioni siano effettivamente realizzabili.

I risultati ottenuti dal team di ricerca evidenziano come, in pochi giorni, RoboPAIR sia riuscito a compromettere tutti i sistemi su cui è stato testato, tra cui veicoli autonomi e robot utilizzati in diversi contesti. Questo solleva domande importanti sulla sicurezza delle infrastrutture basate sull’AI e sull’urgenza di implementare misure di protezione più avanzate per prevenire abusi di questo tipo. Le implicazioni sono vaste e spaziano dalla sicurezza personale alla protezione di infrastrutture critiche, considerando che i robot potrebbero essere utilizzati per scopi estremamente pericolosi se lasciati senza adeguate difese.

I ricercatori concludono sottolineando come sia necessario un ripensamento generale dell’approccio alla sicurezza dei robot controllati dall’intelligenza artificiale. Non basta semplicemente creare filtri per impedire la generazione di contenuti indesiderati; occorre un livello di monitoraggio e intervento più profondo, che sia in grado di prevenire e bloccare proattivamente attacchi di jailbreak. Se da un lato il progresso tecnologico offre nuove opportunità, dall’altro introduce rischi che non possono essere ignorati, specialmente quando si tratta di garantire la sicurezza delle persone e delle comunità.

Di Fantasy