Immagine AI

La rapida diffusione degli agenti AI collegati a strumenti esterni tramite protocolli come MCP (Model Context Protocol) sta introducendo una nuova categoria di vulnerabilità legate alla gestione dei permessi, alla delega delle autorizzazioni e alla fiducia implicita nei tool utilizzati dai modelli linguistici. Uno dei problemi più discussi negli ultimi mesi riguarda il cosiddetto “confused deputy”, un classico paradigma della sicurezza informatica che sta riemergendo in modo particolarmente critico nell’ecosistema degli agenti AI avanzati.

Nel contesto degli LLM agentici, il problema nasce quando un modello AI con privilegi elevati viene indotto a utilizzare le proprie autorizzazioni per eseguire operazioni richieste indirettamente da una fonte non affidabile. In pratica, il modello agisce come un “delegato confuso”: possiede accesso legittimo a file, database, repository GitHub, API cloud o strumenti aziendali, ma viene manipolato tramite prompt injection o tool poisoning affinché utilizzi quei privilegi in modo improprio.

Il tema è diventato centrale soprattutto con la crescita dell’ecosistema MCP sviluppato originariamente da Anthropic per collegare modelli come Claude a sistemi esterni, applicazioni e strumenti operativi. MCP standardizza infatti il modo in cui un LLM può accedere a file system, database, browser, API, ambienti di sviluppo e altri tool runtime. Questo approccio aumenta enormemente le capacità operative degli agenti AI, ma amplia anche la superficie d’attacco disponibile per attori malevoli.

Secondo diverse ricerche recenti, molti agenti AI moderni tendono a fidarsi implicitamente dei tool esposti dai server MCP senza effettuare validazioni sufficientemente robuste. Questo crea blind spot di sicurezza particolarmente pericolosi nelle catene di tool invocation. Un agente può ad esempio ricevere istruzioni malevole nascoste in documenti, repository, issue tracker o output di altri strumenti e successivamente utilizzare le proprie autorizzazioni elevate per leggere dati sensibili, eseguire comandi o inviare informazioni all’esterno.

Uno degli aspetti tecnicamente più critici riguarda la combinazione tra prompt injection e over-privileged tools. Diversi audit recenti sui server MCP mostrano infatti che molti strumenti espongono capacità estremamente sensibili come accesso completo al file system, esecuzione shell, richieste di rete e gestione credenziali senza isolamento sufficiente tra i diversi livelli di trust.

Nel caso degli agenti basati su Claude, il problema diventa ancora più delicato perché questi sistemi vengono sempre più utilizzati in workflow enterprise reali: sviluppo software, automazione IT, analisi documentale, gestione ticket, orchestrazione cloud e integrazione DevOps. Un prompt malevolo inserito in un repository o in un file apparentemente innocuo potrebbe quindi indurre il modello a utilizzare i propri privilegi per compiere azioni non autorizzate senza che il sistema percepisca immediatamente l’anomalia.

Diversi ricercatori stanno evidenziando che il problema non riguarda soltanto la sicurezza del modello linguistico in sé, ma soprattutto la governance delle autorizzazioni delegate. Nei sistemi agentici moderni, infatti, l’AI non opera più come semplice chatbot isolato: dispone di memoria, tool runtime, accesso persistente ai dati e capacità operative autonome. Questo trasforma il modello in un vero orchestratore di azioni infrastrutturali.

Le analisi pubblicate mostrano inoltre che le protezioni attuali risultano spesso frammentarie. Alcuni client MCP implementano warning, sandboxing o audit logging avanzati, mentre altri risultano vulnerabili a cross-tool poisoning, parametri nascosti e invocazioni non autorizzate di strumenti esterni. In diversi test comparativi, piattaforme agentiche differenti hanno mostrato livelli molto variabili di resistenza agli attacchi di prompt injection.

Per mitigare questi rischi stanno emergendo nuovi approcci di sicurezza specifici per agenti AI. Tra le tecniche più discusse vi sono capability-based access control, attestazione crittografica dei tool, information flow tracking, runtime policy enforcement e sistemi di trust calibration dinamica. Alcuni framework sperimentali cercano addirittura di costruire una “cognizione di sicurezza” attorno all’agente, permettendo al modello di valutare il livello di affidabilità dei tool prima dell’esecuzione.

Di Fantasy