In occasione della conferenza ICLR 2026 a Rio de Janeiro, la società Selectstar presenterà una ricerca destinata a ridefinire gli standard di affidabilità dei modelli linguistici. Il cuore del contributo è rappresentato da CAGE (Culturally Tailored Red Teaming Benchmark Generation Framework), un sistema avanzato per la verifica della sicurezza dell’IA che ha ottenuto un prestigioso posizionamento all’interno del programma principale della conferenza. Questa selezione, che riguarda meno del 28% delle oltre 19.000 proposte sottomesse, evidenzia l’urgenza tecnologica di sviluppare metodologie di “red teaming” capaci di andare oltre la semplice traduzione linguistica per abbracciare la complessità dei contesti socioculturali e legali locali.
La limitazione principale dei sistemi di verifica attuali risiede nella loro dipendenza da dataset originariamente concepiti in lingua inglese. Le tecniche tradizionali, come la traduzione diretta o la parafrasi, spesso non riescono a catturare le sfumature di rischio specifiche di una nazione, come i riferimenti a leggi locali, norme etiche regionali o dialetti specifici. CAGE supera questo stallo attraverso una tecnologia proprietaria denominata “Semantic Mold”. Questo processo agisce come un estrattore di essenza: identifica la struttura logica e la tecnica di attacco (lo “stampo”) all’interno di vasti set di dati anglofoni, isolando gli elementi funzionali del prompt avversario.
Una volta estratta la struttura dell’attacco (definita tecnicamente come “slot”), il framework la combina con dati locali per generare scenari di attacco ottimizzati per una specifica area geografica. Questo approccio non solo automatizza la generazione di test che prima richiedevano lunghi processi manuali basati su template rigidi, ma garantisce che la sfida posta al modello sia “naturalizzata”. Ad esempio, una domanda rischiosa sulla finanza o sulla sicurezza pubblica verrà declinata utilizzando terminologie, istituzioni e contesti normativi propri del paese di destinazione, rendendo la verifica molto più sofisticata e aderente alla realtà operativa.
L’efficacia di CAGE è stata misurata attraverso il tasso di successo degli attacchi (ASR – Attack Success Rate) su alcuni dei modelli più diffusi al mondo, tra cui Llama 3.1 di Meta, Qwen 2.5 di Alibaba e Gemma 2 di Google. I risultati hanno dimostrato che le tecniche di attacco generate dal framework, come le richieste dirette potenziate o i metodi di bypass complessi, riescono a identificare vulnerabilità che i benchmark standard non rilevano. In particolare, il sistema si è dimostrato superiore nell’esporre debolezze in scenari di attacco multi-step, dove l’IA viene guidata gradualmente verso una risposta non sicura.
Un aspetto tecnico di rilievo riguarda la capacità di CAGE di operare efficacemente anche in ambienti “low-resource”, ovvero contesti linguistici come il Khmer (cambogiano) dove la scarsità di dati di addestramento rende solitamente difficile la creazione di benchmark affidabili. In Corea, il framework ha permesso lo sviluppo di “KoRSET”, un benchmark specifico che analizza la sicurezza dell’IA in relazione alla cultura e alla legislazione coreana, confermando una precisione di gran lunga superiore rispetto ai test basati sulla sola traduzione.
Il valore di CAGE non si limita all’ambito accademico, ma trova già applicazione pratica in progetti di larga scala condotti da importanti realtà industriali. La capacità di automatizzare la verifica della sicurezza riduce significativamente i costi e i tempi di sviluppo, permettendo alle aziende di rilasciare modelli più robusti e conformi alle normative locali. Questo è particolarmente critico in settori ad alto rischio come la finanza e la pubblica amministrazione, dove un’allucinazione del modello o una risposta inappropriata possono avere conseguenze legali e sociali dirette.
