Il Red Team di OpenAI ha trasformato ChatGPT Agent in una fortezza AI

OpenAI ha lanciato una nuova funzionalità denominata “ChatGPT Agent”, un assistente AI avanzato in grado di eseguire attività autonome come l’accesso a email, la gestione di file e l’interazione con applicazioni web. Questa innovazione ha sollevato preoccupazioni riguardo alla sicurezza, spingendo OpenAI a implementare una serie di misure protettive.

Per testare la sicurezza dell’Agent, OpenAI ha coinvolto un gruppo di 16 ricercatori con dottorati in sicurezza, noti come il “Red Team”. In sole 40 ore, hanno identificato sette vulnerabilità universali che potrebbero compromettere il sistema, rivelando criticità nel modo in cui gli agenti AI gestiscono le interazioni nel mondo reale.

Il Red Team ha sottoposto 110 attacchi, tra cui iniezioni di prompt e tentativi di estrazione di informazioni biologiche. Sedici di questi attacchi hanno superato le soglie di rischio interne, evidenziando falle fondamentali nella gestione delle interazioni da parte dell’AI.

In risposta alle scoperte, OpenAI ha implementato una serie di contromisure, tra cui:

Modalità di osservazione attivata: quando l’Agent accede a contesti sensibili, come conti bancari o email, il sistema congela tutte le attività se l’utente naviga lontano dalla pagina.
Funzionalità di memoria disabilitate: per prevenire attacchi di fuga di dati incrementali.
Restrizioni terminali: accesso alla rete limitato solo a richieste GET, bloccando le vulnerabilità di esecuzione di comandi.
Protocollo di correzione rapida: un nuovo sistema che corregge le vulnerabilità entro poche ore dalla scoperta.
Durante i test pre-lancio, questo sistema ha identificato e risolto 16 vulnerabilità critiche scoperte dal Red Team.

Il Red Team ha anche evidenziato il potenziale rischio biologico, mostrando come l’Agent potrebbe sintetizzare informazioni per modificare e creare minacce biologiche. In risposta, OpenAI ha classificato l’Agent come “Alta capacità” per i rischi biologici e chimici, attivando classificatori di sicurezza sempre attivi e avviando un programma di bug bounty biologico per la scoperta continua di vulnerabilità.

Le scoperte del Red Team hanno insegnato a OpenAI che:

La persistenza è più importante della potenza: gli attaccanti non necessitano di exploit sofisticati, ma di tempo.
I confini di fiducia sono illusori: quando l’AI può accedere a Google Drive, navigare sul web ed eseguire codice, i perimetri di sicurezza tradizionali si dissolvono.
Il monitoraggio non è opzionale: la scoperta che il monitoraggio basato su campionamento non rilevava attacchi critici ha portato alla necessità di una copertura completa.
La velocità è fondamentale: i cicli di correzione tradizionali misurati in settimane sono inutili contro gli attacchi di iniezione di prompt che possono diffondersi istantaneamente.
Le esperienze di OpenAI stabiliscono nuovi requisiti di sicurezza per l’AI aziendale, tra cui protezione quantificabile, visibilità completa, risposta rapida e confini applicati.

Il Red Team di OpenAI ha trasformato ChatGPT Agent in una fortezza AI

DiFantasy

Di Fantasy

Articoli correlati

WhatsApp cede all’AI di Meta bloccando ChatGPT e tutti gli altri chatbot

Heineken e l’Intelligenza Artificiale al centro della nuova strategia di marketing con Freddy AI

Il Drone-Falena che vola senza AI sfruttando il feedback naturale

Ultimi Post

WhatsApp cede all’AI di Meta bloccando ChatGPT e tutti gli altri chatbot

Heineken e l’Intelligenza Artificiale al centro della nuova strategia di marketing con Freddy AI

Il Drone-Falena che vola senza AI sfruttando il feedback naturale

Instagram e la nuova funzione GenAI Restyle