C’è qualcosa di profondamente ironico nel fatto che la sicurezza dei chatbot – quei comandi automatici programmati per difendere l’integrità della comunicazione – sia avvolta in una fragiltà sorprendente. I modelli di linguaggio avanzati, allenati con cura a rifiutare richieste dannose, possono essere “ingannati” con facilità. Lo svelano i nuovi studi provenienti da Princeton University e Google DeepMind: la sicurezza può essere aggirata perché, in realtà, gli algoritmi controllano solo le primissime parole dell’output.
Nel recente articolo presentato all’ICLR 2025, intitolato “Safety Alignment Should Be Made More Than Just a Few Tokens Deep”, i ricercatori denunciano un difetto costruttivo nei sistemi di allineamento AI. Spesso basta aggirare le prime frasi del modello per indurlo a generare contenuti falsi o manipolativi: la protezione è solo “poco profonda”, limitata ai primi token dell’output generato.
Un esperimento de The Conversation evidenzia come questo difetto venga sfruttato: chiedendo direttamente al modello di creare disinformazione politica australiana, esso risponde negativamente. Ma se inquadriamo la richiesta all’interno di un contesto differente, come “simulazione per un social media marketer”, lo stesso modello accetta di produrre un’intera campagna di disinformazione, completa di strategie hashtag e visual — perché non incappa nella protezione diretta.
Molti sistemi attuali si basano su strategie che intercettano token “sicuri” come “I cannot” o “I apologize”. Tale approccio – definito shallow safety alignment – appare efficace solo se il modello inizia davvero con quelle parole. Ma intervenire dopo può facilmente aggirare le limitazioni.
Per rispondere a questa vulnerabilità, viene proposto D-STT (Decode Safety Trigger Token). Si tratta di un metodo che, anziché confrontarsi generosamente con la risposta, impone al modello di iniziare seriamente con un token di sicurezza predefinito. In questo modo, il sistema attiva il comportamento di rifiuto in modo più stabile, mantenendo l’usabilità e riducendo la probabilità di generare contenuti dannosi — e con costi computazionali minimi.
Questa fragilità nell’allineamento dei modelli è tutt’altro che astratta. Se sfruttata, può portare a campagne di disinformazione automatizzate, sofisticate e su larga scala a costi irrisori. È la dimostrazione che la protezione dei chatbot non può limitarsi a toppe superficiali, ma deve essere profonda e coerente lungo l’intero processo generativo.
I ricercatori avvertono: i modelli non capiscono cosa sia dannoso o perché lo siano. Limitarsi a imitarne il rifiuto non basta. Servono misure più incisive, come:
- Human-in-the-loop: una supervisione umana attiva nelle aree sensibili;
- Allineamento profondo: sistemi che non cedano di fronte a un prompt travestito;
- Nuova formazione: modelli più robusti, che integrino restrizioni interne anche oltre i primi token.