OpenAI ammette i limiti contro la prompt injection e ridefinisce la sicurezza degli Agenti AI

Con l’evoluzione dei sistemi di intelligenza artificiale verso forme sempre più autonome e integrate con il web, la sicurezza non è più solo una questione di filtri o regole statiche. In un recente intervento sul proprio blog, OpenAI ha riconosciuto apertamente che gli attacchi di tipo prompt injection rappresentano un rischio strutturale, intrinsecamente difficile da eliminare del tutto, anche nel caso di prodotti rafforzati dal punto di vista della sicurezza come ChatGPT Atlas. La dichiarazione segna un cambio di tono significativo: non una promessa di invulnerabilità, ma l’ammissione che, come le frodi o l’ingegneria sociale sul web tradizionale, alcune minacce fanno parte del contesto operativo e vanno gestite più che “cancellate”.

Secondo OpenAI, il problema emerge con particolare forza quando i sistemi assumono una modalità agente, come nel caso di ChatGPT Atlas, progettato per interagire con informazioni esterne, documenti e servizi online. In questi scenari la superficie di attacco si amplia, perché l’AI non si limita a rispondere a una domanda, ma legge, interpreta e agisce su contenuti che possono contenere istruzioni nascoste o ambigue. La prompt injection sfrutta proprio questa dinamica, inserendo comandi camuffati in pagine web, documenti o messaggi di posta elettronica, con l’obiettivo di deviare il comportamento dell’agente AI.

La questione non è emersa in modo astratto. Subito dopo il rilascio di Atlas, avvenuto a ottobre, diversi ricercatori di sicurezza hanno iniziato a testarne i limiti. Alcuni hanno dimostrato che poche righe di testo inserite in un documento Google Docs potevano influenzare il comportamento del browser AI, alterandone le azioni. Nello stesso periodo, la startup Brave ha evidenziato come l’iniezione indiretta di prompt sia un problema strutturale che riguarda tutti i browser basati su intelligenza artificiale, incluso Comet di Perplexity.

Il riconoscimento di OpenAI si inserisce in un dibattito più ampio. All’inizio del mese, il National Cyber Security Centre del Regno Unito ha avvertito che è improbabile che gli attacchi di prompt injection contro le applicazioni di intelligenza artificiale generativa vengano completamente eliminati. L’approccio suggerito è quello della mitigazione: ridurre rischi e danni potenziali, piuttosto che inseguire l’illusione di un blocco totale. In questo senso, la posizione di OpenAI appare allineata a una visione sempre più diffusa tra gli esperti di sicurezza.

La risposta proposta dall’azienda è quella che definisce un “ciclo di risposta rapida e preventiva”. In pratica, OpenAI punta a individuare rapidamente nuove tecniche di attacco all’interno dei propri sistemi e a implementare contromisure prima che possano essere sfruttate su larga scala. L’idea richiama il concetto di difesa multistrato e di stress test continui già enfatizzati da realtà come Anthropic e Google, ma con un elemento aggiuntivo che distingue l’approccio di OpenAI.

L’azienda ha infatti introdotto un aggressore automatizzato basato su un modello linguistico di grandi dimensioni. Si tratta di un bot addestrato tramite apprendimento per rinforzo che assume il ruolo di un hacker e sperimenta in autonomia modi per iniettare istruzioni dannose in un agente AI. Questo aggressore opera in un ambiente simulato, osserva come il sistema target interpreta i contenuti e quali azioni intraprende, quindi affina iterativamente le proprie strategie. Secondo OpenAI, il vantaggio di questo metodo sta nell’accesso al processo di ragionamento interno del modello, che consentirebbe di individuare vulnerabilità più rapidamente rispetto a un attaccante reale.

Durante questi test, gli aggressori automatizzati hanno persino scoperto nuove strategie capaci di attivare flussi di lavoro complessi e potenzialmente dannosi, composti da decine o centinaia di passaggi. In una dimostrazione, un’e-mail malevola riusciva a entrare nella posta in arrivo di un utente e, una volta letta dall’agente AI, induceva l’invio di un messaggio di dimissioni al posto di una semplice risposta automatica di assenza. Dopo un aggiornamento di sicurezza, lo stesso tentativo è stato intercettato e segnalato all’utente con un avviso, mostrando come il sistema possa evolvere ma anche quanto sottile resti il confine tra automazione utile e rischio operativo.

Resta però una zona d’ombra. OpenAI non ha fornito dati quantitativi sulla reale riduzione del tasso di successo degli attacchi di prompt injection dopo gli aggiornamenti di sicurezza. L’azienda si è limitata a spiegare di aver rafforzato le difese in collaborazione con partner esterni già prima del lancio, lasciando aperta la domanda sull’efficacia misurabile di queste contromisure nel tempo.

A sollevare ulteriori interrogativi è Wiz, attraverso le parole di Rami McCarthy, ricercatore senior in sicurezza. McCarthy descrive i rischi dei sistemi di intelligenza artificiale come il prodotto di “autonomia × diritti di accesso”, sottolineando che i browser basati su agenti rappresentano l’area più delicata, perché combinano un elevato livello di autonomia con accessi potenzialmente sensibili. A suo giudizio, l’apprendimento per rinforzo è uno strumento utile per adattarsi al comportamento degli aggressori, ma non può essere considerato una soluzione completa.

Consapevole di questi limiti, OpenAI ha anche diffuso raccomandazioni pratiche per gli utenti. L’azienda suggerisce di ridurre al minimo gli accessi concessi agli agenti, di richiedere sempre una verifica dell’utente prima di inviare messaggi o effettuare pagamenti e di fornire istruzioni precise, evitando autorizzazioni generiche. L’idea di fondo è che un’eccessiva discrezionalità, anche in presenza di sistemi di sicurezza avanzati, renda più facile l’influenza degli agenti da parte di contenuti dannosi.

Lo scetticismo di McCarthy si spinge fino a mettere in discussione l’utilità attuale dei browser basati su agenti per compiti che coinvolgono dati sensibili come e-mail o informazioni di pagamento. Secondo lui, l’equilibrio tra potenza e rischio potrà migliorare nel tempo, ma al momento il prezzo da pagare in termini di esposizione resta elevato. La presa di posizione di OpenAI, che riconosce apertamente l’impossibilità di eliminare del tutto la prompt injection, sembra confermare che la sicurezza dell’AI non sarà mai un punto di arrivo definitivo, ma un processo continuo di adattamento, compromessi e consapevolezza dei limiti.

OpenAI ammette i limiti contro la prompt injection e ridefinisce la sicurezza degli Agenti AI

DiFantasy

Di Fantasy

Articoli correlati

ChatGPT sempre più usato per scopi personali: cosa cambia per abbonamenti aziendali e pubblicità

EgoX di KAIST: generare video in prima persona partendo da riprese in terza persona

Sajuping di Wontherapy, servizio di assistenza mentale AI

Ultimi Post

ChatGPT sempre più usato per scopi personali: cosa cambia per abbonamenti aziendali e pubblicità

EgoX di KAIST: generare video in prima persona partendo da riprese in terza persona

Sajuping di Wontherapy, servizio di assistenza mentale AI

LLM wrapper e aggregatori di intelligenza artificiale: perché il mercato chiede modelli di business più solidi e differenziati