Impedendo a “loro” di spiarti
Gli scienziati informatici della Columbia Engineering hanno creato un algoritmo che impedisce a un microfono canaglia di ascoltare correttamente le tue parole, in inglese finora, l’80% delle volte

Hai mai notato annunci online che ti seguono che sono stranamente vicini a qualcosa di cui hai parlato di recente con i tuoi amici e familiari? I microfoni sono incorporati in quasi tutto oggi, dai nostri telefoni, orologi e televisori agli assistenti vocali, e ti ascoltano sempre. I computer utilizzano costantemente le reti neurali e l’intelligenza artificiale per elaborare il tuo discorso, al fine di ottenere informazioni su di te. Se volessi evitare che ciò accada, come potresti farlo? 

Ai tempi, come rappresentato nel programma televisivo di successo “The Americans”, avresti suonato musica con il volume alto o aprivi l’acqua in bagno. Ma cosa succede se non volessi urlare costantemente sulla musica per comunicare? I ricercatori della Columbia Engineering hanno sviluppato un nuovo sistema che genera suoni silenziosi che puoi riprodurre in qualsiasi stanza, in qualsiasi situazione, per impedire ai dispositivi intelligenti di spiarti . Ed è facile da implementare su hardware come computer e smartphone, dando alle persone la possibilità di proteggere la privacy della loro voce.

“Una sfida tecnica chiave per raggiungere questo obiettivo è stata quella di far funzionare tutto abbastanza velocemente”, ha affermato Carl Vondrick , assistente professore di informatica . “Il nostro algoritmo, che riesce a impedire a un microfono canaglia di ascoltare correttamente le tue parole l’80% delle volte, è il più veloce e il più accurato sul nostro banco di prova. Funziona anche quando non sappiamo nulla del microfono canaglia, come la sua posizione o anche il software del computer in esecuzione su di esso. Fondamentalmente mimetizza la voce di una persona via etere, nascondendola a questi sistemi di ascolto e senza disturbare la conversazione tra le persone nella stanza”.

Anticipare le conversazioni

Sebbene i risultati del team nel corrompere i sistemi di riconoscimento vocale automatico siano teoricamente noti da un po’ di tempo, raggiungerli abbastanza velocemente da poterli utilizzare nelle applicazioni pratiche è rimasto un grosso collo di bottiglia. Il problema è stato che un suono che interrompe il discorso di una persona ora, in questo momento specifico, non è un suono che interrompe il discorso un secondo dopo. Mentre le persone parlano, le loro voci cambiano costantemente mentre pronunciano parole diverse e parlano molto velocemente. Queste alterazioni rendono quasi impossibile per una macchina tenere il passo con il ritmo veloce del discorso di una persona. 

“Il nostro algoritmo è in grado di tenere il passo prevedendo le caratteristiche di ciò che una persona dirà dopo, dandogli abbastanza tempo per generare il sussurro giusto da fare”, ha affermato Mia Chiquier, autrice principale dello studio e dottoranda nel laboratorio di Vondrick. “Finora il nostro metodo funziona per la maggior parte del vocabolario della lingua inglese e prevediamo di applicare l’algoritmo a più lingue, oltre a rendere il sussurro completamente impercettibile”.

Lanciare “attacchi predittivi”

I ricercatori avevano bisogno di progettare un algoritmo in grado di interrompere le reti neurali in tempo reale, che potesse essere generato continuamente mentre si parla e applicabile alla maggior parte del vocabolario in una lingua. Sebbene il lavoro precedente avesse affrontato con successo almeno uno di questi tre requisiti, nessuno li ha raggiunti tutti e tre. Il nuovo algoritmo di Chiquier utilizza quelli che lei chiama “attacchi predittivi”, un segnale che può interrompere qualsiasi parola che i modelli di riconoscimento vocale automatico sono addestrati a trascrivere. Inoltre, quando i suoni di attacco vengono riprodotti over-the-air, devono essere abbastanza forti da interrompere qualsiasi microfono canaglia di “ascolto” che potrebbe essere lontano. Il suono dell’attacco deve portare la stessa distanza della voce.

L’approccio dei ricercatori consente di ottenere prestazioni in tempo reale prevedendo un attacco al futuro del segnale, o parola, condizionato da due secondi di input vocale. Il team ha ottimizzato l’attacco in modo che abbia un volume simile al normale rumore di fondo, consentendo alle persone in una stanza di conversare in modo naturale e senza essere monitorate con successo da un sistema di riconoscimento vocale automatico. Il gruppo ha dimostrato con successo che il loro metodo funziona all’interno di stanze del mondo reale con rumore ambientale naturale e geometrie complesse della scena.  

IA etica 

“Per molti di noi nella comunità di ricerca, le preoccupazioni etiche della tecnologia di intelligenza artificiale sono una questione essenziale, ma sembra appartenere a un processo di pensiero separato. È come se fossimo così felici di aver finalmente realizzato un’auto da guida, ma ci siamo dimenticati di progettare un volante e un freno”, afferma Jia nbo Shi, professore di informatica e scienze dell’informazione all’Università della Pennsylvania e ricercatore di spicco nell’apprendimento automatico. “Come comunità, dobbiamo pensare ‘consapevolmente’ all’impatto umano e sociale della tecnologia di intelligenza artificiale che sviluppiamo sin dalla prima fase di progettazione della ricerca. Lo studio di Mia Chiquier e Carl Vondrick pone la domanda: “come utilizzare l’IA per proteggerci da usi non intenzionali dell’IA?” Il loro lavoro fa pensare a molti di noi nella seguente direzione: chiedere non cosa l’IA etica può fare per noi, ma cosa possiamo fare per l’IA etica? Una volta che crediamo in questa direzione, la ricerca etica sull’IA è altrettanto divertente e creativa”.

Lo studio è intitolato “Camouflage vocale neurale in tempo reale”.

Gli autori sono: Mia Chiquier, Chengzhi Mao e Carl Vondrick; Dipartimento di Informatica; Ingegneria Columbia

Di ihal