OpenAI ha introdotto una nuova proposta per affrontare la vulnerabilità degli Language Model (LLM) rispetto a varie forme di attacco, come prompt injection e jailbreak. Il problema principale è che attualmente gli LLM trattano tutte le istruzioni con la stessa priorità, indipendentemente dalla loro fonte.
Per risolvere questo problema, OpenAI ha proposto una gerarchia di istruzioni che definisce esplicitamente come i modelli dovrebbero comportarsi quando si trovano di fronte a istruzioni con diverse priorità. Questa gerarchia consente ai modelli di dare la priorità alle istruzioni con privilegi più elevati in caso di conflitto.
In pratica, le istruzioni “allineate”, cioè coerenti con le istruzioni di livello superiore, vengono seguite dai modelli. D’altra parte, le istruzioni “disallineate”, che si oppongono direttamente o sono ortogonali alle istruzioni originali, vengono ignorate.
OpenAI propone due approcci per implementare questa gerarchia: la sintesi del contesto, che suddivide le istruzioni e le colloca a diversi livelli della gerarchia, e l’ignoranza del contesto, che addestra i modelli a rispondere come se non avessero visto le istruzioni di livello inferiore.
Utilizzando questa nuova gerarchia di istruzioni, OpenAI ha ottimizzato il modello GPT-3.5 Turbo, migliorando la sicurezza e la robustezza fino al 63%. Il modello dimostra anche una buona capacità di generalizzazione ai criteri di valutazione esclusi dalla formazione, aumentando la robustezza fino al 34%.
OpenAI prevede di raffinare ulteriormente la gerarchia delle istruzioni e di aumentare gli sforzi nella raccolta dati per migliorare le prestazioni del modello. Inoltre, il lavoro futuro si concentrerà sull’affinamento della gestione delle istruzioni contrastanti, sull’esplorazione dei dati multimodali e sull’implementazione di modifiche all’architettura del modello.la robustezza del modello.