Ieri, Apple ha pubblicato un cortometraggio insieme a un e-book che mostra la sua nuova funzionalità, Personal Voice per i suoi dispositivi, presentata all’inizio di maggio di quest’anno. Lo ha fatto poco prima della Giornata internazionale delle persone con disabilità, il 3 dicembre. Apple è sempre stata in prima linea nel rendere i suoi dispositivi accessibili.
L’azienda ha costantemente ricevuto valutazioni più elevate per la facilità d’uso da parte di persone con disabilità visive, uditive e motorie, nonché da parte degli anziani . Sta facendo un passo avanti con l’intelligenza artificiale, creando funzionalità come VoiceOver, accesso guidato, rilevamento porte, ascolto dal vivo, punta e parla per la lente d’ingrandimento, ecc.
Personal Voice è stato annunciato all’inizio di quest’anno e Sarah Herrlinger , direttore senior, politiche e iniziative globali di accessibilità , ha affermato : “Queste funzionalità rivoluzionarie sono state progettate con il feedback dei membri delle comunità di disabili, per supportare un insieme diversificato di utenti”. Sebbene non parli apertamente dell’intelligenza artificiale, sta aggiornando rapidamente le sue funzionalità per integrare una tecnologia migliore.
La clonazione delle voci per l’assistenza sanitaria è un lavoro in corso. In precedenza, i pazienti che perdevano la voce a causa di varie malattie dovevano utilizzare un elettrolaringe . Questo dispositivo deve essere posizionato nella gola del paziente e la vibrazione fa sì che generi una voce dal suono robotico.
Le aziende che clonano video e immagini clonano anche le voci che vengono utilizzate non solo in tutti gli spazi di intrattenimento ma anche in ambito sanitario . ElevenLabs, Murf.ai, Resemble AI, Respeecher ecc. creano cloni vocali e video.
Utilizzando le funzionalità esistenti, il componente aggiuntivo Personal Voice migliora ulteriormente l’esperienza dell’utente. Il video pubblicato dal colosso della tecnologia presenta Tristram Ingham , medico, ricercatore accademico e leader della comunità dei disabili che soffre di distrofia muscolare facio-scapolo-omerale (FSHD) . Questo disturbo alla fine porta all’incapacità di parlare.
Parlando per esperienza, ha affermato che: “Storicamente, gli operatori sanitari hanno parlato per le persone disabili, le famiglie hanno parlato per le persone disabili. Se la tecnologia può consentire di preservare e mantenere una voce, questa è autonomia, questa è autodeterminazione”. Ciò è possibile grazie a una combinazione di sintesi text-to-speech (TTS) e machine learning (ML) per creare una voce sintetica che suoni come la voce dell’utente.
L’utente deve leggere ad alta voce una serie di istruzioni testuali scelte casualmente, fornendo un campione della propria voce. L’analisi acustica del campione vocale estrae caratteristiche acustiche come altezza, timbro e intonazione. Un modello di sintesi vocale viene addestrato sui dati vocali dell’utente e su un ampio set di dati di coppie di testo e parlato. Il modello impara ad associare le caratteristiche acustiche al testo corrispondente e a generare un parlato sintetico che imita la voce dell’utente.
Tutto questo viene fatto all’interno del telefono dell’utente senza correre il rischio di invasione della privacy, una caratteristica per cui Apple è maggiormente conosciuta. La voce creata può essere utilizzata per chiamate, FaceTime e altre app. Questa funzionalità funziona con Live Speech , anch’esso annunciato nello stesso periodo. Scrivi quello che vuoi dire e la tua voce personale lo dice ad alta voce per te.
Questa funzionalità, che darà potere a così tante persone e darà loro voce, ha contemporaneamente sollevato preoccupazioni in materia di sicurezza e privacy, data la crescente minaccia rappresentata dalle tecnologie deepfake. Internet è pieno di storie di persone e aziende ignare che vengono truffate da cloni vocali che ripuliscono i loro conti bancari. È davvero saggio cedere volontariamente la tua registrazione vocale ad Apple?
L’azienda nel suo annuncio garantisce che tutta l’elaborazione dei dati avviene localmente sul dispositivo, riducendo così il rischio di violazione dei dati. L’accesso alla generazione e alla gestione della voce personale è protetto tramite blocchi biometrici come FaceID o TouchID e il suo utilizzo richiede lo sblocco del dispositivo, impedendo l’accesso non autorizzato. Le voci personali possono essere condivise tra dispositivi collegati allo stesso account iCloud e ad app di terze parti, ma non sembra esserci modo di trasferire la voce su un altro dispositivo.
Per migliorare la sicurezza si potrebbe prendere in considerazione la possibilità di ulteriori garanzie, come il tracciamento delle voci sintetiche per il rilevamento. “Anche se sospetto, data l’attenzione rivolta alla privacy e alla sicurezza dell’azienda, potrebbe già includere questa funzionalità. Sarebbe positivo se i mezzi di rilevamento fossero resi pubblici”, scrive Matt Smallman , autore ed esperto di sicurezza sull’argomento.
Vinod Iyengar , esperto di intelligenza artificiale e responsabile del prodotto presso Third AI non è così ottimista. “Questo potrebbe rapidamente diventare una palude di falsi profondi ovunque”, ha detto. La clonazione vocale può essere utilizzata per creare contenuti audio fittizi che sembrano autentici, rendendo più difficile distinguere tra registrazioni audio reali e false.
Questo potrebbe essere un altro livello di zona grigia e problemi legali in arrivo per il futuro.
Nel frattempo, sui social media crescono le speculazioni sulla direzione futura di Apple, con il suggerimento che queste funzionalità suggeriscano integrazioni AI più avanzate nei prossimi prodotti. Viene discussa la possibilità che Apple sorprenda tutti con nuovi strumenti di intelligenza artificiale locale, indicando un passaggio dall’elaborazione dei dati basata su cloud a quella locale nell’intelligenza artificiale. Il futuro potrà avere l’intelligenza artificiale che risponderà alle telefonate con la tua voce senza notare la differenza!