Gli attacchi di prompt injection sui modelli GPT personalizzati si sono rivelati molto efficaci, con una percentuale di successo del 97,2% nell’estrazione dei prompt di sistema e del 100% nella perdita di file. Inoltre, gli utenti tendono a condividere dati sensibili con i modelli linguistici di grandi dimensioni (LLM), come dimostrato da recenti casi di fughe di dati in aziende come Samsung.
Questi rischi hanno messo in allarme le organizzazioni, rendendo evidente la necessità di proteggere i chatbot AI e i dati degli utenti. Una soluzione promettente è l’utilizzo di un firewall AI, in grado di analizzare le richieste degli utenti e prevenire attacchi di prompt injection e tentativi di esfiltrazione di dati.
Aziende come Cloudflare e Nightfall AI stanno già offrendo firewall AI per proteggere le organizzazioni da questi attacchi. Tuttavia, il semplice filtraggio degli input dei prompt non è sufficiente, poiché gli hacker possono trovare modi per aggirare queste misure.
Una soluzione alternativa è il filtraggio dell’output, chiedendo al sistema di scansionare le risposte generate dall’IA invece del prompt di input. Diverse aziende, come F5 e Darktrace, stanno sviluppando soluzioni per rilevare e prevenire l’abuso di chatbot.
Nonostante l’adozione di firewall AI sia in aumento, è importante sottolineare che anche il filtraggio dell’output può essere una strategia efficace per proteggere i dati degli utenti. La combinazione di diverse misure di sicurezza può contribuire a creare un ambiente più sicuro per l’utilizzo dei chatbot AI nelle aziende e a mitigare i rischi di fughe di dati e attacchi dannosi.