I fondatori di Resemble AI, Zohaib Ahmed e Saqib Muhammad, hanno mostrato per la prima volta la loro tecnologia generativa di clonazione vocale alimentata dall’intelligenza artificiale al team di Voicebot nell’estate del 2019 durante un incontro di marketing vocale a New York City. Quattro anni e un paio di settimane dopo, Resemble AI ha annunciato di aver raccolto un round di finanziamento di serie A da 8 milioni di dollari guidato da Javelin Venture Partners con Comcast Ventures. Si sostiene che la tecnologia di deepfake audio prodotta dall’intelligenza artificiale richieda la nuova funzione Deepfake Detect di Resemble AI per identificare l’audio generativo.
Si afferma che i modelli proprietari di intelligenza artificiale generativa di Resemble AI siano in grado di addestrare un clone vocale utilizzando solamente cinque minuti della voce di una persona. Grazie al continuo miglioramento della tecnologia, le voci generate hanno un suono migliore utilizzando campioni di registrazione più piccoli. L’azienda si è anche espansa nell’applicazione della clonazione vocale per la traduzione. Inoltre, le ambizioni di Resemble AI nell’industria dell’intrattenimento hanno avuto successo. Nel documentario Netflix dell’anno scorso, The Andy Warhol Diaries, la voce dell’artista generata dall’intelligenza artificiale di Resemble AI è stata utilizzata per leggere estratti dal suo libro di memorie. Si nota che durante la prima discussione dell’IA generativa di Resemble AI, Zohaib Ahmed e Saqib Muhammad si riferivano ad essa come “software di apprendimento profondo”.
In una nuova intervista a Voicebot, Ahmed ha affermato: “Penso che siamo sempre stati un’azienda di intelligenza artificiale generativa, anche nel 2019. È come la realtà virtuale veniva chiamata VR o AR, e ora penso che il metaverso, tutti si siano adattati. Penso che in fondo siamo un’azienda di intelligenza artificiale generativa. Sono successe molte cose in quattro anni. Abbiamo un milione di utenti, con una buona parte che paga, e stiamo crescendo sul fronte degli affari. Ci sono anche nuove sfide tecnologiche e mercati che ci interessano, come il doppiaggio. Abbiamo già visto i clienti usarlo per questo”.
Resemble Detect è descritto come un sofisticato sistema di intelligenza artificiale che ascolta attentamente gli artefatti sonori sottili associati a qualsiasi audio manipolato. Indipendentemente dalla modifica apportata al suono, tali segni distintivi rimangono e Resemble Detect è in grado di utilizzarli per valutare la probabilità che l’audio sia un deepfake. Ahmed ha affermato che Resemble Detect è accurato fino al 98% nell’identificazione in tempo reale di audio deepfake, anche se la precisione scende all’87% quando non ha mai incontrato la voce o la traccia audio in precedenza.
Resemble Detect amplifica la funzione di filigrana audio introdotta da Resemble AI a febbraio. Il PerTh Watermarker consente a Resemble AI di contrassegnare qualsiasi audio prodotto dal suo software senza compromettere la qualità del suono. La filigrana è essenzialmente un suono molto debole che le persone non noteranno, ma che contiene informazioni decodificabili da un computer. Queste informazioni permettono di identificare non solo l’audio come sintetico, ma anche di risalire al set di dati originale utilizzato per addestrare il sistema.
Ahmed ha dichiarato: “L’abbiamo testato con tutto, voci, musica; l’abbiamo testato anche con la finta canzone di Drake. Funziona su tutto. Lo chiamiamo l’antivirus per l’intelligenza artificiale. La filigrana aggiornata ci permette di risalire alla fonte se la [voce sintetica] si è formata utilizzando il nostro set di dati. Se Spotify utilizzasse la nostra tecnologia per [filigranare] la propria libreria e qualcuno creasse un [clone vocale] addestrato su una canzone nel loro catalogo, la filigrana dimostrerebbe che è stata addestrata utilizzando il nostro set di dati”.