Attualmente, i ricercatori stanno sperimentando il jailbreak dei modelli linguistici di grandi dimensioni (LLM) indiani utilizzando il leetspeak Tamil, e i risultati sono sorprendenti. In uno studio intitolato “Jailbreak Paradox: The Achilles’ Heel of LLMs”, Abhinav Rao, Monojit Choudhury e Somak Aditya hanno tradotto diversi comandi di jailbreak in Tamil per testare LLM Tamil comunemente usati.
L’obiettivo del documento era dimostrare che creare un classificatore per rilevare il jailbreak è quasi impossibile, e che i modelli meno avanzati non sono affidabili nel rilevare se un modello migliore è stato jailbroken.
Per i test, i ricercatori hanno utilizzato tre approcci: Albert (utilizzando errori di battitura), Plinio (usando leetspeak) e CodeJB (generazione di codice). Tra questi, CodeJB è risultato il più efficace nel jailbreak dei modelli. I modelli testati includevano Llama-2, Tamil-Llama e GPT-4o. I risultati hanno mostrato che:
- GPT-4o, il modello più avanzato, ha generalmente resistito ai tentativi di jailbreak tranne per CodeJB.
- Llama-2 ha fallito nel comprendere i comandi in Tamil.
- Tamil-Llama ha compreso alcuni comandi ma è stato comunque vulnerabile al jailbreak, fornendo istruzioni inappropriate.
Lo studio ha messo in evidenza le difficoltà nel prevenire il jailbreak e ha suggerito che i prompt di jailbreak tradotti in Tamil stabiliscono una base per come i LLM in lingua indiana possono essere jailbroken. La mancanza di risorse e dati di formazione adeguati rende i LLM in lingua indiana meno avanzati rispetto a quelli inglesi.
I ricercatori suggeriscono che piuttosto che tentare di prevenire il jailbreak, dovremmo utilizzarlo a nostro vantaggio, trovando nuovi attacchi in modo proattivo e implementandoli programmaticamente per migliorare i modelli. Questo approccio è stato adottato da aziende come Anthropic e OpenAI, che assumono appaltatori esterni per testare la sicurezza dei loro sistemi.
Il jailbreak etico potrebbe diventare una grande industria, con aziende incaricate di testare i LLM per migliorare la sicurezza. Tuttavia, resta da vedere se questi test saranno estesi anche ai LLM in lingua indiana.