Nel panorama in rapida evoluzione della sicurezza informatica, un nuovo allarme è stato lanciato da Cisco: la personalizzazione dei modelli linguistici estesi (LLM) potrebbe renderli vulnerabili e trasformarli in strumenti per attacchi informatici. Questo avvertimento emerge dal recente rapporto “The State of AI Security” di Cisco, che evidenzia come la messa a punto di questi modelli possa aumentare significativamente la loro predisposizione a produrre output dannosi.
Secondo il rapporto, modelli come FraudGPT, GhostGPT e DarkGPT sono stati sviluppati specificamente per scopi malevoli, tra cui phishing, generazione di exploit, offuscamento del codice, scansione di vulnerabilità e validazione di carte di credito. Questi strumenti sono disponibili sul mercato nero a partire da 75 dollari al mese, offrendo a gruppi criminali e stati-nazione opportunità per condurre attacchi sofisticati. La loro accessibilità e il modello di business simile al Software-as-a-Service (SaaS) li rendono particolarmente pericolosi.
La rapidità con cui si stanno diffondendo i LLM armatizzati pone a rischio anche i modelli legittimi, che potrebbero essere compromessi e integrati nelle catene di strumenti dei cybercriminali. Il rapporto di Cisco indica che i LLM personalizzati sono 22 volte più propensi a produrre output dannosi rispetto ai modelli base. La personalizzazione, sebbene essenziale per garantire la rilevanza contestuale dei modelli, indebolisce le misure di sicurezza integrate, aprendo la porta a jailbreak, injection di prompt e inversione del modello.
Test condotti su modelli personalizzati, come Llama-2-7B e Microsoft Adapt LLMs, in vari settori (sanità, finanza e legale), hanno mostrato che la personalizzazione destabilizza l’allineamento del modello, anche quando addestrato su dataset puliti. In particolare, nei settori biomedico e legale, noti per la loro rigorosa conformità normativa, si è osservato un aumento significativo dei tassi di successo dei jailbreak e della generazione di output dannosi. Questo suggerisce che, sebbene la personalizzazione migliori le prestazioni del modello, amplia anche la superficie di attacco.
Il team Cisco Talos ha monitorato la crescita dei LLM malevoli sul dark web, rilevando che strumenti come GhostGPT, DarkGPT e FraudGPT sono venduti su piattaforme come Telegram a partire da 75 dollari al mese. Questi strumenti sono progettati per essere facilmente utilizzabili in attacchi di phishing, sviluppo di exploit e offuscamento del codice, offrendo API, aggiornamenti e dashboard simili a prodotti SaaS commerciali.
La ricerca di Cisco sottolinea che le misure di sicurezza statiche non sono più sufficienti. È fondamentale che i responsabili della sicurezza informatica adottino una visibilità in tempo reale su tutta l’infrastruttura IT, rafforzino i test contro le minacce e semplifichino il proprio stack tecnologico per affrontare le sfide poste dai LLM personalizzati. Riconoscere che i LLM rappresentano una superficie di attacco vulnerabile è essenziale per proteggere le organizzazioni dalle minacce emergenti.