Deepfaked Voice ha consentito una rapina in banca da 35 milioni di dollari nel 2020
Un’indagine sulla frode di $ 35 milioni di dollari da una banca negli Emirati Arabi Uniti nel gennaio del 2020 ha scoperto che la tecnologia vocale deepfake è stata utilizzata per imitare un direttore aziendale noto a un direttore di filiale bancaria, che ha poi autorizzato le transazioni.
Il crimine è avvenuto il 15 gennaio dello scorso anno ed è descritto in una richiesta (PDF) degli Emirati Arabi Uniti alle autorità statali americane di aiuto per rintracciare una parte dei fondi sottratti che sono stati inviati agli Stati Uniti.
La richiesta afferma che il direttore della filiale di una banca vittima anonima negli Emirati Arabi Uniti ha ricevuto una telefonata da una voce familiare, che, insieme alle e-mail di accompagnamento di un avvocato di nome Martin Zelner, ha convinto il manager a erogare i fondi, che apparentemente erano destinati al acquisizione di una società.
La richiesta afferma:
“Secondo le autorità degli Emirati, il 15 gennaio 2020, il direttore della filiale della compagnia vittima ha ricevuto una telefonata che affermava di provenire dalla sede della società. Il chiamante sembrava il direttore dell’azienda, quindi il direttore della filiale credeva che la chiamata fosse legittima.
‘Il direttore della filiale ha anche ricevuto diverse e-mail che riteneva provenissero dal direttore e relative alla telefonata. Il chiamante ha detto al direttore della filiale per telefono ed e-mail che la Victim Company stava per acquisire un’altra società e che un avvocato di nome Martin Zelner (Zelner) era stato autorizzato a coordinare le procedure per l’acquisizione.’
Il direttore della filiale ha quindi ricevuto le e-mail di Zelner, insieme a una lettera di autorizzazione del (presunto) direttore, la cui voce era familiare alla vittima.
Identificata frode vocale deepfake
Gli investigatori degli Emirati hanno quindi stabilito che la tecnologia di clonazione vocale deepfake era stata utilizzata per imitare la voce del direttore dell’azienda:
‘L’indagine degli Emirati ha rivelato che gli imputati avevano utilizzato la tecnologia “voce profonda” per simulare la voce del direttore. Nel gennaio 2020, i fondi sono stati trasferiti dalla Società vittima a diversi conti bancari in altri paesi in uno schema complesso che coinvolge almeno 17 imputati noti e sconosciuti. Le autorità degli Emirati hanno tracciato il movimento del denaro attraverso numerosi conti e hanno identificato due transazioni negli Stati Uniti.
“Il 22 gennaio 2020, due bonifici di USD 199.987,75 e USD 215.985,75 sono stati inviati da due degli imputati ai numeri di conto della Centennial Bank, rispettivamente xxxxx7682 e xxxxx7885, ubicati negli Stati Uniti.’
Non sono disponibili ulteriori dettagli in merito al reato, che è solo la seconda incidenza nota di frode finanziaria deepfake basata sulla voce. Il primo è avvenuto nove mesi prima, nel marzo del 2020, quando un dirigente di una società energetica britannica è stato arringato al telefono da quello che sembrava il capo del dipendente, chiedendo il trasferimento urgente di € 220.000 ($ 243.000), che il dipendente ha poi negoziato .
Sviluppo della clonazione vocale
La clonazione vocale deepfake prevede l’addestramento di un modello di apprendimento automatico su centinaia o migliaia di campioni della voce “target” (la voce che verrà imitata). La corrispondenza più accurata può essere ottenuta addestrando la voce bersaglio direttamente contro la voce della persona che parlerà nello scenario proposto, anche se il modello sarà “sovraadattato” alla persona che impersona il bersaglio.
La comunità online legittima più attivo per voce sviluppatori di clonazione è l’ Audio falsi server di Discordia, che dispone di forum per molti algoritmi di clonazione voce deepfake quali Google Tacotron-2 , Talknet , ForwardTacotron , Coqui-ai-TTS e Glow-TTS , tra gli altri.
Deepfake in tempo reale
Poiché una conversazione telefonica è necessariamente interattiva, la frode di clonazione vocale non può ragionevolmente essere effettuata da clip vocali di alta qualità “preparate” e, in entrambi i casi di frode di clonazione vocale, possiamo ragionevolmente presumere che l’oratore stia utilizzando un deepfake dal vivo e in tempo reale. struttura.
I deepfake in tempo reale sono stati messi a fuoco ultimamente a causa dell’avvento di DeepFaceLive, un’implementazione in tempo reale del popolare pacchetto deepfake DeepFaceLab, che può sovrapporre celebrità o altre identità alle riprese in diretta della webcam . Sebbene gli utenti di Audio Fakes Discord e DeepFaceLab Discord siano intensamente interessati a combinare le due tecnologie in un’unica architettura deepfake live video + voce, nessun prodotto del genere è ancora emerso pubblicamente.