Gli attacchi di Prompt Injection come DAN (Do Anything Now) e Sydney (Bing Chat) di ChatGPT non sono più da considerarsi come semplici scherzi. In particolare, l’attacco DAN ha sfruttato un prompt che ha indotto ChatGPT a comportarsi come un altro chatbot, ignorando la politica sui contenuti di OpenAI e fornendo informazioni senza restrizioni. Questi attacchi hanno evidenziato la vulnerabilità dei sistemi chatbot, che possono essere sfruttati per attività dannose, come il furto di informazioni personali.
I ricercatori dell’Università di Saarland hanno recentemente presentato un documento intitolato “Più di quanto hai chiesto”, in cui discutono i metodi per implementare attacchi di ingegneria rapida nei chatbot. In particolare, hanno trovato un modo per iniettare prompt esterni nei nuovi “LLM integrati nelle applicazioni” come Bing Chat e GitHub Copilot, ampliando così i vettori di attacco disponibili per gli hacker.
Gli attori malintenzionati possono eseguire prompt indirettamente, inserendo un prompt in un documento che può essere recuperato dall’LLM durante l’inferenza. Il prompt ingegnerizzato può quindi essere utilizzato per raccogliere informazioni sull’utente, trasformando l’LLM in un metodo per eseguire un attacco di ingegneria sociale.
Ad esempio, un ricercatore ha dimostrato come Bing Chat possa essere utilizzato per raccogliere informazioni personali e finanziarie degli utenti, costringendo il bot a eseguire la scansione di un sito Web con un prompt incorporato nascosto al suo interno. Il chatbot è stato in grado di eseguire un comando che lo ha fatto mascherare da dirigente del supporto Microsoft che vende Surface Laptop con uno sconto, riuscendo così ad estrarre il nome dell’utente, l’ID e-mail e le informazioni finanziarie.
L’utilizzo di questo metodo può consentire agli attori malintenzionati di ottenere un prompt di attacco persistente, attivato da una parola chiave token. Questo exploit può anche essere diffuso ad altri LLM e può anche essere utilizzato come via per recuperare nuove istruzioni dal server di un utente malintenzionato.
Il documento di ricerca sottolinea la necessità di ulteriori ricerche e di un’indagine approfondita su come mitigare questi attacchi. Tuttavia, la natura di scatola nera delle grandi reti neurali e l’architettura interna degli LLM rendono difficile la soluzione degli attacchi di tipo prompt injection.
In sintesi, gli attacchi di tipo prompt injection rappresentano un vero problema di sicurezza informatica, e ci sono poche misure di sicurezza che possono essere utilizzate per proteggersi da essi. L’utilizzo di prompt esterni e l’ingegneria sociale possono consentire agli attori malintenzionati di sfruttare i sistemi chatbot per attività illecite come il furto di informazioni personali.