Negli ultimi mesi, l’adozione degli agenti di coding basati su intelligenza artificiale ha accelerato in modo significativo, trasformando strumenti come Copilot, Codex e Claude Code da semplici assistenti a veri e propri attori operativi nei flussi di sviluppo. Tuttavia, proprio nel momento in cui questi sistemi iniziano a essere integrati in ambienti produttivi, una serie di exploit documentati ha evidenziato una fragilità strutturale che non riguarda il modello in sé, ma il modo in cui questi agenti interagiscono con infrastrutture reali, credenziali e sistemi aziendali.

L’analisi pubblicata da VentureBeat si concentra su sei exploit distinti, sviluppati nell’arco di circa nove mesi da diversi team di ricerca, che hanno colpito piattaforme come Codex, Claude Code, GitHub Copilot e Vertex AI. Il dato più rilevante non è tanto la varietà degli attacchi, quanto il loro schema ricorrente: in tutti i casi, il punto di ingresso non è stato il modello linguistico, ma le credenziali operative che l’agente utilizza per eseguire azioni.

Questo rappresenta un cambio di paradigma importante. Nella sicurezza tradizionale dell’AI, l’attenzione è spesso focalizzata sui contenuti generati, sulle allucinazioni o sulle risposte inappropriate. Qui, invece, il problema si sposta a livello di runtime: l’agente non si limita a suggerire codice, ma legge repository, esegue comandi, interagisce con API e accede a sistemi reali. In questo contesto, ogni autorizzazione diventa una superficie di attacco.

Uno degli esempi più emblematici riguarda Codex, dove un semplice nome di branch GitHub, manipolato con caratteri speciali, è stato utilizzato per iniettare codice e ottenere l’esfiltrazione di token OAuth. Il punto critico non era il modello, ma il fatto che un parametro non sanitizzato venisse passato direttamente a uno script di esecuzione. Questo tipo di vulnerabilità, ben noto nel mondo del software tradizionale, assume una dimensione nuova quando combinato con agenti autonomi che operano senza supervisione continua.

Un altro caso significativo riguarda Claude Code, dove sono emerse vulnerabilità nella gestione dei permessi e nell’isolamento dell’ambiente. In un exploit, concatenazioni di comandi hanno permesso di uscire dal sandbox previsto dal sistema, mentre in un altro caso una configurazione manipolata ha bypassato completamente il prompt di autorizzazione, consentendo all’agente di operare con privilegi elevati senza che l’utente ne fosse consapevole.

Questi episodi mostrano che i meccanismi di sicurezza implementati dai vendor, pur presenti, non sono progettati per un ambiente realmente ostile. Ogni exploit documentato ha aggirato difese esistenti, non perché fossero assenti, ma perché erano state concepite per scenari controllati, non per attacchi intenzionali e mirati.

Un ulteriore elemento emerso è la vulnerabilità agli attacchi di prompt injection in contesti operativi. In un caso documentato, un ricercatore è riuscito a inserire un’istruzione malevola nel titolo di una pull request, inducendo diversi agenti a esporre chiavi API sensibili direttamente nei commenti del repository. Questo tipo di attacco è particolarmente insidioso perché sfrutta il comportamento “fiducioso” dell’agente verso input che, in un contesto umano, sarebbero considerati innocui o comunque filtrati.

Il punto centrale dell’analisi è che tutte queste vulnerabilità convergono su un’unica debolezza: la gestione delle identità e delle credenziali. Gli agenti AI operano spesso con token e permessi ampi, ereditati dall’utente o configurati durante il setup, e possono quindi agire su sistemi critici senza un legame diretto con una sessione umana. Questo rompe uno dei principi fondamentali della sicurezza informatica, ovvero la tracciabilità e il controllo delle azioni.

Come sottolineato da esperti di sicurezza intervistati nell’articolo, molte aziende credono di aver “approvato” l’uso di questi strumenti, ma in realtà hanno autorizzato solo l’interfaccia, non il sistema sottostante. Le credenziali utilizzate dagli agenti restano spesso invisibili ai sistemi IAM tradizionali, creando una zona grigia in cui le azioni vengono eseguite senza essere adeguatamente monitorate o limitate.

Questo aspetto si inserisce in un contesto più ampio in cui la sicurezza degli agenti AI appare ancora immatura. Secondo dati recenti, la maggior parte delle organizzazioni ha già sperimentato incidenti legati a questi sistemi, ma solo una minoranza dispone di strumenti per monitorarne il comportamento in tempo reale. La conseguenza è un disallineamento tra percezione del rischio e capacità effettiva di controllo.

La lezione più importante che emerge da questi exploit è che gli agenti di coding non devono essere trattati come strumenti passivi, ma come entità operative con privilegi reali. Questo implica la necessità di ripensare completamente il modello di sicurezza, spostando l’attenzione dal modello AI al contesto in cui opera. Non è sufficiente verificare cosa l’agente dice o genera; bisogna controllare cosa può fare.

In questo scenario, alcune indicazioni iniziano a delinearsi. Una delle più rilevanti è il principio secondo cui l’agente non dovrebbe mai avere più privilegi dell’utente che rappresenta. Questo significa limitare gli scope dei token, segmentare le autorizzazioni e introdurre meccanismi di approvazione esplicita per le azioni critiche. Ma soprattutto, significa riconoscere che il runtime degli agenti è il vero perimetro di sicurezza.

Di Fantasy