Anthropic: Jailbreaking Multi-shot per superare i limiti di sicurezza negli LLM

DiFantasy

Apr 3, 2024

Recentemente, i ricercatori di Anthropic hanno pubblicato un articolo su “Many-shot Jailbreaking”, una nuova tecnica per eseguire il jailbreak che supera i limiti di sicurezza dei modelli di linguaggio naturale (LLM).

Questo nuovo metodo di jailbreaking, chiamato jailbreak multi-shot, sfrutta la lunga finestra di contesto dei più recenti LLM e apprende solo dalle informazioni fornite nel prompt. In sostanza, aggiunge diverse domande false in un unico messaggio per abbassare gradualmente le difese di sicurezza del modello.

Il problema è che, se il numero di domande false è troppo basso, il modello potrebbe rifiutare di rispondere. Tuttavia, se le domande false sono troppe, il modello potrebbe ignorare le difese di sicurezza e fornire risposte dannose.

I ricercatori hanno testato questa tecnica utilizzando Claude 2 e hanno scoperto che, aumentando il numero di domande false, il modello era molto più incline a fornire risposte dannose.

Per prevenire questi jailbreak, Anthropic ha preso misure, come limitare la lunghezza della finestra di contesto o modificare i prompt prima di inviarli al modello. Ciò ha ridotto significativamente il successo degli attacchi, portando da un tasso di successo del 61% al 2%.

Questo studio mette in luce la necessità per gli sviluppatori di LLM di considerare attentamente i rischi di sicurezza e di adottare misure preventive per proteggere i propri modelli da potenziali exploit.

Anthropic: Jailbreaking Multi-shot per superare i limiti di sicurezza negli LLM

DiFantasy

Di Fantasy

Articoli correlati

GenAI aziendale: arriva la partnership tra HCLTech e OpenAI

Logicflo riceve un finanziamento di 2,7 milioni di euro per un’AI al servizio della scienza della vita

Neuralink: costruire la legge di Moore per la mente umana

You missed

GenAI aziendale: arriva la partnership tra HCLTech e OpenAI

Logicflo riceve un finanziamento di 2,7 milioni di euro per un’AI al servizio della scienza della vita

Neuralink: costruire la legge di Moore per la mente umana

Cursor porta gli agenti AI di coding sul web e sul mobile