AI agent e sicurezza: uno studio mostra che il 35% comunica dati sensibili anche dopo aver riconosciuto una truffa

Una nuova ricerca condotta da ricercatori statunitensi e indiani evidenzia una criticità significativa per la prossima generazione di agenti autonomi basati sull’intelligenza artificiale. Lo studio ha rilevato che oltre il 35% degli AI agent testati ha trasmesso informazioni personali sensibili a siti web fraudolenti nonostante avesse già identificato tali destinazioni come potenziali truffe.

L’analisi si concentra sugli agenti in grado di navigare autonomamente sul web, compilare moduli, effettuare ricerche e prendere decisioni operative senza intervento umano continuo. In questi scenari, i ricercatori hanno sottoposto diversi sistemi a situazioni nelle quali venivano richiesti dati personali identificabili, comprese credenziali, informazioni bancarie e altri elementi classificabili come PII (Personally Identifiable Information). I risultati mostrano che il riconoscimento del rischio non è stato sufficiente a impedire l’esecuzione dell’azione.

Uno degli aspetti più rilevanti emersi dalla ricerca riguarda la separazione tra capacità di valutazione e capacità di esecuzione. In numerosi casi gli agenti hanno dimostrato di comprendere che il sito visitato presentava caratteristiche tipiche di una frode, ma hanno comunque proseguito il flusso operativo portando a termine attività che comportavano la divulgazione di dati sensibili. Questo comportamento suggerisce che gli attuali meccanismi di ragionamento e pianificazione non sempre riescono a tradurre correttamente la consapevolezza del rischio in un blocco effettivo delle operazioni.

La ricerca mette inoltre in evidenza un problema strutturale per l’evoluzione degli agenti autonomi destinati ad attività amministrative, finanziarie e commerciali. Man mano che questi sistemi ottengono accesso diretto a credenziali, account aziendali, servizi cloud e strumenti di pagamento, eventuali errori di valutazione possono trasformarsi rapidamente in incidenti di sicurezza con impatti concreti. Il rischio non riguarda soltanto la generazione di risposte errate, ma la possibilità che un agente esegua autonomamente azioni dannose utilizzando dati reali e privilegi operativi assegnati dall’utente.

I risultati si inseriscono in un contesto più ampio che vede il settore della sicurezza informatica concentrarsi sempre più sulla protezione degli agenti AI da prompt injection, manipolazioni contestuali, siti malevoli e contenuti progettati per influenzare il processo decisionale dei modelli. La crescente diffusione di agenti capaci di interagire direttamente con il web sta infatti spostando l’attenzione dalla sola accuratezza delle risposte alla capacità di operare in ambienti ostili senza compromettere dati, identità digitali o risorse aziendali.

Lo studio evidenzia come la sicurezza degli agenti non possa essere valutata esclusivamente sulla base della loro capacità di riconoscere minacce e comportamenti fraudolenti. Per le future piattaforme agentiche sarà necessario integrare meccanismi di controllo in grado di interrompere automaticamente l’esecuzione delle attività quando vengono rilevati segnali di rischio, impedendo che informazioni sensibili vengano trasmesse anche nei casi in cui il sistema abbia già identificato la natura potenzialmente malevola dell’interlocutore o del sito web coinvolto.

AI agent e sicurezza: uno studio mostra che il 35% comunica dati sensibili anche dopo aver riconosciuto una truffa

DiFantasy

Di Fantasy

Articoli correlati

Ricerca AI e pubblicità conversazionale stanno sostituendo l’economia dei clic del web

Project Perception: Microsoft integra il modello MAI-Cyber-1-Flash nella sicurezza informatica agentica

Il malware ENCFORGE colpisce i server Langflow e distrugge modelli, pesi e dati di addestramento AI

Ultimi Post

Ricerca AI e pubblicità conversazionale stanno sostituendo l’economia dei clic del web

Project Perception: Microsoft integra il modello MAI-Cyber-1-Flash nella sicurezza informatica agentica

Il malware ENCFORGE colpisce i server Langflow e distrugge modelli, pesi e dati di addestramento AI

Meta AI integra Muse Spark 1.1 e introduce attività autonome e ricorrenti