È stato riportato che è stato sviluppato un nuovo metodo di induzione del jailbreak che evade i guardrail del Large Language Model (LLM) attraverso l’uso di “ASCII Art”, che rappresenta immagini o parole con testo.

Secondo quanto riportato da Tom’s Hardware, i ricercatori delle Università di Washington e di Chicago hanno pubblicato un articolo su un nuovo metodo di bypass dei guardrail chiamato “ArtPrompt”. Il titolo dello studio è “ArtPrompt: attacchi jailbreak basati su arte ASCII contro LLM allineati”.

Secondo l’articolo, l’utilizzo di prompt ASCII art per chatbot come “GPT-3.5”, “GPT-4”, “Gemini”, “Claude 2” e “Rama 2” potrebbe essere utilizzato per incoraggiarli a rispondere a domande progettate per prevenirli dal rispondere. Ad esempio, se una parola come “BOMBA” viene creata come arte ASCII e inserita nel prompt invece di una parola normale, LLM potrebbe essere istruito su come costruire una bomba.

ArtPrompt trasforma le parole specifiche che violano i guardrail LLM nel prompt dell’utente in espressioni artistiche ASCII e le maschera. Poiché LLM è progettato per analizzare e interpretare il testo normale, non riconosce le parole riservate mascherate a meno che non siano esplicitamente menzionate.

Di conseguenza, è stato sviluppato un metodo per dedurre la parola mascherata con l’arte ASCII. Quando viene immesso il prompt convertito in formato ASCII, LLM deduce la parola e genera una risposta basata sul contenuto non mascherato rimanente del prompt.

Si ritiene che questo metodo possa aggirare efficacemente i guardrail di LLM, poiché LLM, ingannato dall’arte ASCII, non è in grado di applicare filtri o respingere i messaggi. Gli utenti possono quindi ricevere informazioni o indicazioni progettate per sfruttare o respingere i punti ciechi di LLM.

Si è osservato che il rilascio di ArtPrompt ha posto la necessità per LLM di sviluppare capacità oltre la semplice interpretazione del testo.

Tom’s Hardware ha sottolineato che, per contrastare questi exploit, LLM dovrebbe incorporare capacità avanzate di interpretazione visiva utilizzando la tecnologia di visione artificiale.

Di Fantasy