Nelle ore in cui OpenAI ha reso pubblica la sua nuova cassetta degli attrezzi per gli agenti, AgentKit, una promessa di ordine e sicurezza per l’AI “che agisce”, un gruppo di ricercatori di HiddenLayer ha mostrato il rovescio della medaglia: se la moderazione è affidata allo stesso tipo di modello che genera le risposte, basta un’astuzia di prompt per far saltare i controlli. È una lezione dura, tanto più perché arriva mentre l’ecosistema costruisce sempre più processi reali su agenti capaci di leggere il web, chiamare strumenti, orchestrare sequenze di azioni. Il debutto dei Guardrails — il modulo di sicurezza pensato per “ingabbiare” input, output e tool call — è del 6 ottobre 2025; la dimostrazione di HiddenLayer è arrivata pochi giorni dopo, mettendo in luce un difetto strutturale nella “auto-moderazione” dei modelli.
Il punto chiave è semplice da dire e complesso da gestire: se il “giudice” che decide cosa è sicuro è una variante della stessa intelligenza che deve essere giudicata, allora è vulnerabile alle stesse tattiche di persuasione e di inganno. HiddenLayer ha replicato il comportamento dei Guardrails, che includono giudici LLM per intercettare jailbreak e prompt injection, e ha costruito richieste che non solo spingono il modello principale a produrre contenuti vietati, ma convincono anche il giudice a certificare che è tutto a posto. In pratica, la manomissione avviene “da dentro”: nel testo della richiesta si suggerisce al giudice come stimare la soglia di confidenza, con che criteri e perfino quale valore restituire. Se il giudice viene instradato a credere che 0,675 sia sotto soglia quando il sistema attende 0,7, l’allarme non scatta e il contenuto passa. È la versione applicativa di un paradosso: l’arbitro accetta di cambiare le regole perché glielo dice un’altra pagina del regolamento scritta… nello stesso foglio del giocatore.
La squadra di ricerca ha spinto l’attacco oltre il testo in chat, toccando una delle aree più delicate per gli agenti: le chiamate a strumenti e il “fetch” di pagine esterne. Qui il prompt malevolo non è digitato dall’utente, ma nascosto in una pagina web che l’agente va a leggere su richiesta legittima. I Guardrails dovrebbero bloccare questi casi di prompt injection indiretta, perché sono istruzioni che tentano di far compiere all’agente un’azione non allineata allo scopo dell’utente, come inviare un “flag” segreto a un server esterno. Eppure, anche in questo scenario, inserendo nel contenuto recuperato una piccola sezione che “parla” al giudice (riassume il verdetto, la confidenza e la soglia), il filtro viene aggirato e l’agente procede a eseguire la tool call indesiderata. La catena di custodia dell’input, insomma, si incrina nel punto in cui giudice e imputato condividono lo stesso modo di ragionare.
Per capire perché questa dimostrazione pesa oltre il caso specifico, è utile ricordare che Guardrails non è un unico filtro monolitico, ma un set modulare: mascheramento o segnalazione di PII, rilevamento di jailbreak, vincoli di policy, moderazione di testo, controlli su tool. In molte di queste pipeline, il “giudice” è un LLM: una scelta che offre flessibilità e copertura semantica, ma che eredita — inevitabilmente — la suscettibilità alle tecniche di attacco che, nell’ultimo anno, hanno mostrato di saper “piegare” il contesto con espedienti come role-playing, markup strutturati, cifrature leggere o istruzioni a più livelli. HiddenLayer lo aveva già argomentato in primavera con la famiglia di attacchi battezzata “policy puppetry” e con un “universal bypass” trasversale ai principali modelli; questa nuova prova si innesta su quella linea: non basta allenare meglio il modello se il giudice segue gli stessi schemi cognitivi dell’imputato.
Vale la pena sottolineare il perimetro di questa ricerca. Non è una sentenza definitiva contro qualunque architettura di sicurezza, né la prova che ogni setup reale sia automaticamente vulnerabile. HiddenLayer opera con conoscenza del prompt del giudice, delle soglie e dei criteri; interfacce più restrittive, randomizzazione delle difese, separazione fisica dei canali, ensemble di controllori e diversificazione dei modelli possono alzare l’asticella. Resta però il messaggio di fondo: quando il guardiano condivide le stesse debolezze del sorvegliato, l’aspettativa di infallibilità è un’illusione.
Le implicazioni pratiche per chi sviluppa e adotta agenti sono immediate. La prima è culturale: smettere di pensare ai Guardrails come a un “sigillo di sicurezza” che chiude ogni discussione. Servono più strati e soprattutto strati eterogenei: filtri deterministici lungo la pipeline, tracciamento e audit delle tool call, controlli di coerenza esterni alla sessione, allarmi su attività anomale, revisione umana mirata. La seconda è operativa: il red teaming deve includere attacchi che non mirano solo a ottenere output proibiti, ma a truccare il verdetto del giudice, a manipolare soglie e criteri, a insinuarsi nelle risposte dei tool e nelle fonti esterne. La terza è architetturale: ove possibile, separare il più possibile generazione e valutazione, facendo eseguire i controlli a modelli o sistemi con logiche diverse, magari con randomizzazione e con verbosità esplicita che impedisca di “iniettare” meta-istruzioni nel formato atteso dal giudice. Sono direzioni proposte dagli stessi ricercatori e discusse nella copertura della notizia.
C’è anche un tema regolatorio, che si profila sullo sfondo. Se gli agenti entreranno in ambiti sensibili — sanità, finanza, pubblica amministrazione — sarà difficile evitare richieste di prove verificabili di resilienza, non solo di accuratezza. Sarà naturale vedere audit di terze parti, schemi di certificazione che obblighino a dimostrare di aver testato, loggato e mitigato attacchi anche contro i giudici LLM, non soltanto contro i modelli generativi. È un passaggio che molti nel settore, dai ricercatori ai vendor, stanno già anticipando.
unite.ai
Guardando avanti, questa vicenda segna un cambio di fase nel discorso sulla sicurezza dell’AI: non più soltanto attacchi per far “dire” al modello qualcosa che non dovrebbe, ma attacchi per piegare l’infrastruttura che dovrebbe impedirglielo. È un salto qualitativo che obbliga a ripensare il design difensivo come un sistema “fuori dal contesto” del modello, tanto quanto il firewall è fuori dalla CPU che protegge. Non c’è una soluzione unica e definitiva, ma c’è una certezza: la sicurezza non può essere solo “dentro il modello”. E, come ricorda la stessa pagina di lancio di AgentKit, i Guardrails sono un componente da integrare, non un talismano da invocare. La differenza tra i due approcci farà, nei prossimi mesi, la differenza tra incidenti silenziosi e sistemi affidabili.