Il dibattito sulla sicurezza dei Modelli di Linguaggio di Grandi Dimensioni (LLM) tende spesso a concentrarsi sulla capacità di un modello di respingere un singolo tentativo di manipolazione, ovvero un prompt malevolo inserito in un’unica interazione. Le statistiche relative a questo scenario sono, a prima vista, confortanti: i modelli di Intelligenza Artificiale attuali, in media, riescono a bloccare con successo circa l’ottantasette percento di questi attacchi isolati, dimostrando che le guardrail iniziali e i filtri di contenuto hanno una loro efficacia di base. Tuttavia, una recente e allarmante ricerca ha messo in luce una vulnerabilità sistemica che svela una fragilità profonda in ambienti operativi reali: quando gli attaccanti adottano una strategia di persistenza adattiva e un approccio conversazionale, il tasso di successo degli attacchi crolla drammaticamente.
Questo scarto tra la teoria e la pratica è una vera e propria crisi di sicurezza per le aziende che integrano l’IA nei loro flussi di lavoro, dai chatbot di assistenza clienti ai copilot interni. La ricerca ha dimostrato che, se l’attaccante ha la possibilità di inviare una serie di prompt in una conversazione prolungata, raffinando e modificando gradualmente la richiesta in base ai rifiuti o alle risposte evasive del modello, il tasso di successo del jailbreaking o della prompt injection schizza in alto, portando il blocco efficace delle difese a un misero otto percento. In sostanza, un attacco su dieci può fallire, ma un’intera conversazione su dieci riesce a penetrare le barriere.
Il problema centrale risiede nella natura dei benchmark di sicurezza utilizzati attualmente dall’industria. Molti test si concentrano sulla difesa contro l’attacco single-turn, dove il modello deve prendere una decisione binaria (bloccare o eseguire) in base a un unico input. Questo approccio è insufficiente perché non replica il modo in cui i criminali informatici o gli attori malevoli operano nella realtà. Un essere umano che interagisce con un LLM non si arrende al primo rifiuto. Allo stesso modo, gli attaccanti utilizzano tecniche sofisticate come il “Crescendo” o il “Refusal Reframe”, dove partono da richieste apparentemente innocue o ambigue per poi introdurre lentamente istruzioni dannose, sfruttando la memoria e il contesto della conversazione.
Questo processo adattivo e graduale è in grado di forzare il modello a uscire dai suoi schemi di sicurezza, spesso convincendolo che la richiesta successiva sia legittima e coerente con il contesto stabilito in precedenza. Il modello, che è per sua natura un predittore di testo contestuale, tende a seguire la narrativa stabilita, anche se questa porta a produrre codice malevolo, a estrarre dati sensibili o a eseguire azioni non autorizzate. La discrepanza statistica – un salto da un tasso di successo del quindici percento in attacchi singoli a oltre il novanta percento negli attacchi multi-turno – non è solo una curiosità accademica, ma una vulnerabilità immediata e catastrofica per qualsiasi sistema in produzione.
Le implicazioni di questa scoperta per i Chief Information Security Officers (CISO) e per le aziende sono immediate. I modelli che hanno superato i test di sicurezza standard potrebbero fallire miseramente quando sottoposti a una pressione avversaria prolungata. La soluzione proposta dagli esperti di sicurezza impone un ripensamento radicale delle strategie di protezione. Non è più sufficiente affidarsi esclusivamente ai prompt di sistema o al fine-tuning per la sicurezza, poiché queste difese agiscono in modo reattivo e sono facilmente aggirabili con la persistenza.
L’attenzione si deve spostare sull’implementazione di Guardrail di Runtime Agnostiche al Modello, ovvero meccanismi di difesa stratificati che operano al di fuori del modello stesso. Questi sistemi devono essere in grado di analizzare l’intera sequenza conversazionale, non solo l’ultimo prompt, per rilevare l’intento malevolo, la graduale escalation dell’attacco e i pattern di comportamento tipici delle tecniche di jailbreaking. È fondamentale inoltre introdurre il multi-turn testing nei processi di valutazione e condurre regolarmente sessioni di AI Red-Teaming (simulazioni di attacco etico) che replichino fedelmente le tattiche adattive e persistenti degli aggressori reali.