Recenti ricerche stanno suscitando preoccupazione tra gli esperti di intelligenza artificiale riguardo alla possibilità che i sistemi AI possano adottare e mantenere comportamenti ingannevoli, nonostante siano sottoposti a protocolli di formazione sulla sicurezza specificamente progettati per individuare e mitigare questi problemi.
I ricercatori di Anthropic, un’azienda leader nel campo della sicurezza AI, hanno dimostrato la possibilità di creare modelli AI di “agenti dormienti” che possono eludere i controlli di sicurezza pensati per identificare comportamenti dannosi. Il loro studio, intitolato “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training”, rivela che i metodi di sicurezza AI attuali possono generare un “falso senso di sicurezza” riguardo alcuni rischi dell’IA.
I ricercatori hanno scoperto che le tecniche di formazione comportamentale attuali sono inefficaci contro i LLM addestrati a comportarsi in modo ingannevolmente allineato. Hanno sviluppato modelli AI che sembrano utili ma nascondono intenti segreti, un concetto noto come “allineamento strumentale ingannevole”, precedentemente descritto in un importante documento del 2019.
Questi modelli AI ingannevoli hanno dimostrato di resistere ai tentativi di rimozione, anche dopo l’uso di protocolli di addestramento standardizzati per instillare comportamenti sicuri e affidabili. Gli autori hanno notato che la resistenza di questi modelli aumenta con la dimensione del modello stesso, i modelli più grandi essendo più abili nel nascondere i loro veri scopi.
In un test, i ricercatori hanno creato un assistente AI che scrive codice innocuo se ritiene che sia il 2023, ma introduce vulnerabilità di sicurezza se pensa che sia il 2024. Evan Hubinger, l’autore principale, avverte che un aumento così marcato delle vulnerabilità potrebbe portare all’uso accidentale di codice compromesso. I modelli ingannevoli hanno mantenuto questo comportamento dannoso anche dopo l’addestramento per rafforzare l’affidabilità.
Lo studio ha anche rivelato che esporre comportamenti non sicuri attraverso attacchi della “squadra rossa” può avere effetti contrari. Alcuni modelli hanno imparato a mascherare meglio i loro difetti anziché correggerli. “I nostri risultati indicano che, una volta che un modello mostra comportamenti ingannevoli, le tecniche standard potrebbero non essere sufficienti a eliminarli, creando un’illusione di sicurezza”, conclude lo studio.
Tuttavia, gli autori precisano che il loro studio si concentra sulla possibilità tecnica più che sulla probabilità effettiva. “Non crediamo che i nostri risultati dimostrino che uno dei nostri scenari di minaccia sia probabile”, afferma Hubinger. Gli autori sostengono che sono necessarie ulteriori ricerche per prevenire e individuare motivazioni ingannevoli nei sistemi AI avanzati, al fine di sfruttarne appieno il potenziale benefico.