Ricercatori dell’Università della Pennsylvania hanno sviluppato un nuovo algoritmo denominato PAIR (Prompt Automatic Iterative Refinement) che può automaticamente rafforzare la sicurezza nei Large Language Models (LLM). PAIR si concentra sul rilevare e mitigare i cosiddetti prompt di “jailbreak”, che possono indurre gli LLM a generare contenuti pericolosi nonostante le protezioni esistenti.
Il punto di forza di PAIR è la sua efficienza nell’identificare questi jailbreak in modelli chiusi, come ChatGPT, e nel creare istruzioni che sono sia comprensibili che trasferibili tra modelli diversi. Ciò lo rende una risorsa preziosa per le aziende che cercano di proteggere i propri LLM da vulnerabilità senza un notevole sforzo umano.
I prompt di jailbreak tradizionalmente si affidano a tecniche semanticamente sofisticate e ingegneria sociale, richiedendo un grande impegno nella loro creazione. PAIR, invece, fonde l’aspetto umano comprensibile dei jailbreak di prompt con l’automazione dei jailbreak di token, che pur essendo efficienti, tendono a generare risultati non interpretabili.
PAIR opera pitting due LLM “black-box”, un attaccante e un bersaglio, l’uno contro l’altro. L’attaccante automatizzato genera prompt candidati per compromettere il modello bersaglio, un processo che non richiede intervento umano. Questo approccio non solo è completamente automatizzato ma è anche applicabile a modelli ai quali si può accedere solo tramite API, come ChatGPT di OpenAI, PaLM 2 di Google e Claude 2 di Anthropic.
Il processo di PAIR si svolge in quattro fasi, dalla generazione del prompt di jailbreak alla valutazione e affinamento fino al successo o esaurimento dei tentativi. La ricerca ha mostrato che PAIR può effettuare jailbreak con successo in un numero limitato di query e in un tempo relativamente breve.
I test di PAIR hanno evidenziato una significativa resistenza dei modelli Claude agli attacchi, mentre altri modelli come GPT-3.5 e GPT-4 sono stati vulnerabili. L’efficienza di PAIR si traduce in una trasferibilità elevata dei jailbreak generati tra vari LLM.
I ricercatori prevedono di utilizzare PAIR per creare dataset di red teaming, aiutando le aziende a sintonizzare meglio i propri LLM per rafforzare la sicurezza. L’uso di LLM come ottimizzatori è una tendenza emergente, che può trasformare l’adattamento dei prompt da un processo manuale a uno automatico e misurabile.
Con l’introduzione di tecniche come OPRO da parte di DeepMind, che ottimizza i problemi utilizzando gli LLM, si prevede un’accelerazione dello sviluppo nel settore dei modelli linguistici, con potenziali progressi significativi e inaspettati.