Il metodo “audio-jacking”, che potrebbe essere sfruttato da soggetti malintenzionati per ottenere vantaggi finanziari, impiega modelli LLM (Large-Language), clonazione vocale, sintesi vocale e funzionalità di sintesi vocale. Recentemente, gli scienziati dell’IBM hanno scoperto come utilizzare le tecnologie di intelligenza artificiale generativa per alterare segretamente le chiamate audio dal vivo senza che gli oratori se ne accorgano.
Vi è preoccupazione che il rapido sviluppo dell’intelligenza artificiale generativa negli ultimi 16 mesi possa portare alla diffusione della disinformazione attraverso deepfake e clonazione vocale. Quest’ultima permette di utilizzare un campione vocale di una persona per generare messaggi audio che suonano come l’originale.
Recentemente, la clonazione vocale è stata al centro dell’attenzione a causa di chiamate robotizzate presumibilmente inviate dal presidente Biden, invitando le persone a non votare alle primarie presidenziali del New Hampshire. Queste chiamate sono state ricondotte a due organizzazioni in Texas. Una delle applicazioni della clonazione vocale è nelle truffe, dove le vittime ricevono chiamate che sembrano provenire da una persona cara in difficoltà che chiede assistenza finanziaria.
IBM ha paragonato l’audio-jacking agli attacchi thread-jacking, che consentono agli hacker di alterare di nascosto una telefonata. I ricercatori IBM hanno mirato a superare l’uso dell’intelligenza artificiale generativa per creare una voce sintetica, una tattica facilmente rilevabile. Invece, il loro sistema ascolta le chat in tempo reale e sostituisce frasi specifiche dipendenti dal contesto.
Nel loro esperimento, hanno chiesto al LLM di sostituire riferimenti a conti bancari reali con numeri di conto falsi. Il malware installato sui telefoni delle vittime o un servizio Voice-over-IP (VoIP) compromesso sono possibili vettori di attacco. Gli hacker potrebbero anche avviare una conversazione tra due vittime.
Nel proof-of-concept di IBM, il software funge da intermediario in una discussione dal vivo. Un tool di sintesi vocale converte la voce in testo e il LLM comprende il contesto della conversazione. Quando viene menzionato un conto bancario, la frase viene modificata. Il LLM può essere incaricato di alterare qualsiasi tipo di informazione finanziaria o altre forme di informazione. Le capacità di ingegneria sociale degli attaccanti devono essere sofisticate per conversazioni più complesse.
Un altro ostacolo facilmente superato dall’intelligenza artificiale generativa è la creazione di voci artificiali convincenti. Gli hacker possono creare voci false utilizzando solo tre secondi della voce di una persona. Tuttavia, i ricercatori hanno dovuto interrompere artificialmente la discussione nel loro esperimento per non destare sospetti, poiché avevano bisogno di accedere da remoto alle API LLM e di sintesi vocale.
Perché la truffa sia efficace, la clonazione della voce deve imitare il modo di parlare naturale della vittima. Il Proof of Concept di IBM ha dimostrato l’uso di LLM in attacchi sofisticati, che potrebbero aprire la strada a futuri pericoli simili. IBM ha avvertito che la maturità di questo PoC rappresenta un rischio significativo soprattutto per i consumatori più suscettibili alle truffe di ingegneria sociale.
Per proteggersi, è consigliato utilizzare solo dispositivi e servizi affidabili, mantenere i dispositivi aggiornati con soluzioni di sicurezza, chiedere ai chiamanti di ripetere il linguaggio se qualcosa sembra strano e utilizzare metodi collaudati come password robuste ed evitare truffe di phishing.