Inkject nasconde prompt dannosi nelle immagini e mette a rischio gli agenti AI multimodali

L’uso di modelli AI capaci di leggere immagini, documenti, schermate e contenuti web ha ampliato in modo significativo le possibilità di automazione, ma ha aperto anche una nuova superficie di attacco. Inkject è una tecnica di prompt injection indiretta che sfrutta proprio questa capacità: istruzioni malevole vengono incorporate in un’immagine apparentemente normale e diventano leggibili o interpretabili dal sistema AI durante l’elaborazione visiva.

Il principio è diverso dal classico prompt malevolo inserito direttamente nella chat. In questo caso l’utente può caricare, inoltrare o far analizzare un’immagine senza accorgersi che contiene anche un secondo livello di contenuto destinato al modello. L’immagine può sembrare una fotografia, un grafico, una scansione o un normale allegato, mentre al suo interno vengono predisposte istruzioni capaci di influenzare il comportamento dell’assistente AI.

L’efficacia dell’attacco dipende dal modo in cui i sistemi multimodali trasformano il contenuto visivo in dati interpretabili. Durante ridimensionamento, compressione, conversione di formato, riconoscimento ottico dei caratteri o analisi dell’immagine, elementi inizialmente poco visibili possono diventare più leggibili per il modello. Il testo può essere nascosto in aree marginali, combinato con pattern grafici, inserito con contrasti minimi o progettato per emergere dopo una specifica trasformazione dell’immagine.

Il rischio cresce quando il modello non si limita a descrivere l’immagine, ma dispone di strumenti collegati a email, archivi documentali, browser, sistemi aziendali, piattaforme cloud o workflow automatici. In questi scenari, una semplice istruzione visiva può tentare di modificare la priorità dei comandi ricevuti, spingere l’agente a ignorare regole precedenti, alterare una sintesi, estrarre informazioni riservate o compiere azioni non richieste dall’utente.

Un’immagine apparentemente innocua può quindi diventare un veicolo per condizionare processi come la classificazione di documenti, il controllo di annunci pubblicitari, l’analisi di fatture, la lettura di report, l’assistenza clienti automatizzata o la gestione di contenuti caricati da utenti esterni. Il problema non riguarda solo la generazione di risposte errate: quando l’AI è integrata con strumenti operativi, l’effetto può estendersi ai dati e alle azioni disponibili per l’agente.

La difesa richiede di separare in modo rigoroso istruzioni e contenuti non attendibili. Un sistema AI non dovrebbe trattare il testo estratto da immagini, file o pagine web come un comando con lo stesso livello di fiducia delle istruzioni definite dall’applicazione. È utile applicare filtri specifici ai contenuti visivi, identificare testo occultato o anomalie di ridimensionamento, ridurre i privilegi degli agenti e richiedere una conferma esplicita prima di inviare messaggi, accedere a dati sensibili o eseguire operazioni esterne.

Anche la progettazione dei workflow conta quanto il filtro tecnico. Un agente incaricato di leggere immagini o documenti dovrebbe operare con permessi minimi, senza accesso automatico a credenziali, caselle email o sistemi di pagamento. Le informazioni ottenute da fonti esterne devono essere considerate dati da analizzare e non istruzioni da eseguire, soprattutto quando provengono da upload, siti web, allegati o archivi non controllati.

Inkject evidenzia un limite strutturale dei sistemi AI multimodali: per il modello, un’immagine non è soltanto un contenuto grafico, ma può diventare una fonte di testo e istruzioni. Con la diffusione di assistenti capaci di vedere, leggere e agire, la sicurezza non può più concentrarsi solo sui prompt digitati dall’utente. Deve includere ogni file, schermata, documento e immagine che entra nel flusso operativo dell’intelligenza artificiale.

Inkject nasconde prompt dannosi nelle immagini e mette a rischio gli agenti AI multimodali

DiFantasy

Di Fantasy

Articoli correlati

Anthropic citata in giudizio per due brevetti sulle reti neurali

Google sviluppa Gemini 3.5 Flash Cyber per automatizzare la ricerca e la correzione delle vulnerabilità

Google lancia Gemini 3.6 Flash, Gemini 3.5 Flash-Lite e Gemini 3.5 Flash Cyber per rendere più efficienti gli agenti AI su larga scala

Ultimi Post

Anthropic citata in giudizio per due brevetti sulle reti neurali

Google sviluppa Gemini 3.5 Flash Cyber per automatizzare la ricerca e la correzione delle vulnerabilità

Google lancia Gemini 3.6 Flash, Gemini 3.5 Flash-Lite e Gemini 3.5 Flash Cyber per rendere più efficienti gli agenti AI su larga scala

OpenAI prepara una nuova famiglia di modelli orientata alle attività aziendali