La sempre maggiore accessibilità e il progresso nell’intelligenza artificiale stavano ridefinendo la natura dei crimini informatici. Questo nuovo tipo di criminalità sembrava essere in crescita, con la comparsa di strumenti come WormGPT e FraudGPT, fino alle sofisticate truffe di imitazione.
Un sondaggio aveva rivelato che il 25% degli adulti in tutto il mondo era caduto vittima di truffe vocali. L’India guidava la lista con un sorprendente 47%, seguita dagli Stati Uniti con il 14% e dal Regno Unito con l’8%. I truffatori attingevano ai campioni vocali dalle piattaforme dei social media come Instagram, Facebook e Twitter, avendo bisogno di appena 3 secondi di registrazione vocale per clonare una voce usando la tecnologia di clonazione vocale.
Microsoft aveva recentemente lanciato VALL-E, un innovativo modello di sintesi vocale basato sull’intelligenza artificiale. In un articolo pubblicato, l’azienda aveva spiegato come VALL-E fosse in grado di replicare la voce di una persona utilizzando una registrazione di soli 3 secondi. Incredibilmente, i risultati preliminari suggerivano che VALL-E potesse anche catturare le sfumature emotive del parlante.
VALL-E veniva addestrato su un vasto set di dati che conteneva 60.000 ore di parlato in inglese, un set di dati che superava di gran lunga quelli dei modelli esistenti nell’ambito della sintesi vocale basata sull’IA.
Questo sollevava preoccupazioni, poiché una registrazione vocale di soli tre secondi, combinata con modelli di IA multilingue come Eleven Labs e la capacità di traduzione di SeamlessM4T di Meta in oltre 100 lingue, creava una serie di problematiche. Mentre alcune persone erano entusiaste delle opportunità offerte da queste tecnologie nell’ambito del marketing, del servizio clienti, dell’e-learning e dell’intrattenimento, altre temevano le possibili conseguenze: una nuova generazione di criminali abilitati dall’IA che avrebbe potuto sfruttarla per vari tipi di reati, similmente a quanto accaduto con Jamtara.
I truffatori informatici usavano anche strumenti di clonazione come HeyGen, Murf, Resemble AI, Lyrebird e ReadSpeaker per creare cloni vocali perfetti. Questi strumenti erano accessibili e poco costosi, con un costo di appena $0,6. Questi generatori vocali basati sull’IA erano facilmente reperibili online grazie a numerosi tutorial. L’accesso semplificato a questi modelli generativi di IA consentiva a persone con poche conoscenze tecniche di compiere azioni che in passato sarebbero state al di là delle loro capacità. I tutorial rendevano possibile per individui inesperti e poco informati sulla tecnologia eseguire truffe su larga scala.
Mentre i truffatori sfruttavano generatori vocali abilitati dall’IA, le forze dell’ordine avevano sviluppato strumenti simili per contrastarli. La polizia informatica utilizzava l’IA per monitorare le SIM coinvolte in queste truffe, bloccando di recente oltre 14.000 SIM nel distretto di Mewat nell’Haryana.
Il Dipartimento indiano delle telecomunicazioni aveva introdotto un sistema di riconoscimento facciale basato sull’IA chiamato ASTR, finalizzato a combattere l’abuso fraudolento delle carte SIM. ASTR codificava i volti dei sottoscrittori nelle immagini utilizzando reti neurali convoluzionali, tenendo conto di fattori come l’angolo del volto e la qualità dell’immagine. ASTR confrontava i volti, raggruppava quelli simili e riconosceva volti identici con un’accuratezza minima del 97,5%.
ASTR era in grado di individuare tutte le SIM associate a un volto sospetto in meno di 10 secondi, utilizzando un database di un milione di immagini. Utilizzava anche la “logica fuzzy” per trovare corrispondenze approssimative nei nomi dei sottoscrittori, correggendo eventuali errori tipografici. L’obiettivo di ASTR era individuare le persone con molteplici connessioni o SIM ottenute con nomi diversi, ma con la stessa foto. L’elenco delle identificazioni veniva condiviso con banche, servizi di pagamento e piattaforme di social media per disconnettere questi numeri. WhatsApp aveva collaborato con il governo per bloccare account fraudolenti, e si stavano intraprendendo sforzi simili su altre piattaforme social.
Nel frattempo, rimaneva essenziale rimanere vigili e adottare misure preventive personali. Gli utenti potevano verificare l’identità del chiamante, utilizzare segnali convenuti in precedenza o porre domande alle quali solo il loro amico avrebbe potuto rispondere correttamente, per proteggersi in situazioni difficili simili.