Prendi un chatbot intelligente, tipo ChatGPT o Gemini, che dovrebbe rifiutare richieste pericolose o vietate — come istruzioni su come costruire una bomba oppure dialoghi su argomenti esplicitamente proibiti. Ora, pensa che basti infilare qualche emoji nel posto giusto perché quella barriera di sicurezza venga aggirata. Può sembrare fantascienza, ma è esattamente questo che uno studio recente da Cina e Singapore denuncia come realtà.
L’articolo Unite.AI riporta uno studio accademico — il paper When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity — nel quale si dimostra che gli emoji non sono affatto innocui nei sistemi di filtraggio dei modelli linguistici avanzati (Large Language Models, LLM). Anzi: possono diventare, in alcune situazioni, delle vere e proprie “scappatoie” per richiedere contenuti che altrimenti verrebbero bloccati.
Il nucleo del lavoro è chiaro: prendere richieste già considerate “ad alto rischio” (ad esempio da un dataset chiamato AdvBench, che contiene prompt su argomenti come terrorismo, hacking, omicidio) e riscriverle inserendo emoji — sia come sostituti di parole esplicite, sia come decorazioni o “camouflage” del significato.
L’esperimento include:
- Traduzione dei prompt in più lingue (inglese, cinese, francese, spagnolo, russo) per vedere se il fenomeno è specifico di una lingua o generale.
- Confronti tra versioni “normali” del prompt (con parole esplicite), “ablated” (senza emoji), e versioni con emoji.
- Uso anche di tecniche già note di “jailbreak” (cioè metodi per aggirare i filtri) combinate con emoji per vedere se l’efficacia migliora.
La misura dell’effetto si è fatta con nuovi criteri: un modello interno chiamato GPT-Judge valuta le risposte generate da altri modelli e assegna punteggi di “nocività” (harmfulness) su una scala da 1 (innocuo) a 5 (estremamente nocivo).
Lo studio identifica tre caratteristiche principali che rendono gli emoji particolarmente adatti a questo scopo:
- Il significato contestuale: un emoji può avere significati diversi a seconda del contesto. Per esempio, l’emoji “💸” (“money with wings”) potrebbe riferirsi a spese legittime, ma anche implicare attività illecite, a seconda delle parole che lo accompagnano.
- Modificazione del tono: gli emoji tendono a dare al testo una sfumatura di leggerezza, ironia o gioco. Ciò può “ammorbidire” il modo in cui un prompt pericoloso appare al sistema, facendolo sembrare meno serio, meno letterale, come un scherzo, e quindi meno sospetto ai filtri.
- Carattere “multilingua” e simbolico: gli emoji non dipendono da una lingua specifica. Un emoji ha spesso lo stesso impatto semantico (o molto simile) in lingue diverse — questo rende difficile progettare filtri che li interpretino sempre allo stesso modo. Inoltre, gli emoji vengono trattati nel processo interno dei modelli come entità che non sempre sono “scomposte” alla stregua delle parole; i loro token (unità di elaborazione interna) spesso non corrispondono a parole chiaramente riconoscibili.
I risultati evidenziati sono i seguenti:
- I prompt “emoji-modificati” producevano una maggiore tossicità (risposte più pericolose) rispetto alle versioni normali o senza emoji.
- Questo effetto si mantiene anche dopo la traduzione: non è solo un fatto della lingua inglese, ma appare anche in francese, spagnolo, cinese, russo.
- L’effetto degli emoji si somma ad altre tecniche di jailbreak già note, rendendo il bypass più robusto.
Questo tipo di scoperta ha parecchie conseguenze — sia pratiche che etiche:
- Sicurezza e fiducia: se utenti malintenzionati scoprono queste vulnerabilità, possono usarle per far dire ai chatbot cose pericolose o vietate, compromettendo la sicurezza delle piattaforme e la fiducia degli utenti.
- Allineamento e responsabilità nei modelli: gli sviluppatori devono rendersi conto che non basta filtrare certe parole: i sistemi devono riconoscere intenti pericolosi anche quando sono mascherati da simboli o emoji.
- Trasparenza e ricerca continua: è necessario capire meglio come e perché gli emoji riescono a bypassare i filtri — quali sono i meccanismi nei token, nei dataset usati per l’addestramento, nei metodi di filtro applicati dopo che il modello ha generato un output.
- Politiche di moderazione più robuste: per usare gli emoji come segnale non solo estetico ma come parte del contenuto effettivo — cioè i sistemi di moderazione dovrebbero essere addestrati non solo a riconoscere parole, ma concetti, contesti, simboli.
Gli emoji sono diventati un linguaggio universale, semplice, intuitivo: un modo rapido per esprimere emozioni, sfumature, ironie. Ma come ogni linguaggio – e forse più di altri – possono celare significati. Quando quei significati sono usati per scavalcare barriere progettate per proteggere — che siano barriere di sicurezza, filtri di contenuto, normative — allora gli emoji smettono di essere solo decorazione: diventano strumenti.