Riva Custom Voice di Nvidia consente alle aziende di creare voci personalizzate basate sull’intelligenza artificiale
Alla sua conferenza sulla tecnologia GPU (GTC) dell’autunno 2021 , Nvidia ha presentato Riva Custom Voice, un nuovo toolkit che l’azienda sostiene possa consentire ai clienti di creare voci personalizzate “simili a quelle umane” con solo 30 minuti di dati di registrazione vocale. Secondo Nvidia, le aziende possono utilizzare Riva Custom Voice per sviluppare un assistente virtuale con una voce unica, mentre i call center e gli sviluppatori possono sfruttarlo per lanciare voci e app del marchio per supportare le persone con disabilità del linguaggio.
Voci di marchi come Flo di Progressive hanno spesso il compito di registrare alberi telefonici e script di elearning in serie di video di formazione aziendale. Per le aziende, i costi possono sommarsi: una fonte fissa la tariffa oraria media per i doppiatori a $ 39,63, oltre a costi aggiuntivi per i prompt di risposta vocale interattiva (IVR). La sintesi potrebbe aumentare la produttività degli attori riducendo la necessità di registrazioni aggiuntive, liberando potenzialmente gli attori per perseguire un lavoro più creativo e facendo risparmiare denaro alle aziende nel processo.
Ad esempio, Progressive ha utilizzato l’intelligenza artificiale per creare un chatbot di Facebook Messenger con la voce di Stephanie Courtney, che interpreta Flo. KFC in Canada ha creato una voce con un accento inglese del sud degli Stati Uniti per l’ambasciatore della catena, il colonnello Sanders, nell’app Amazon Alexa dell’azienda. Duolingo utilizza l’intelligenza artificiale per creare voci per i personaggi nelle sue app per l’apprendimento delle lingue. E la National Australia Bank ha implementato una voce inglese australiana basata sull’intelligenza artificiale per i clienti che chiamano i suoi contact center.
“Le interazioni di tipo umano sono state a lungo una delle più grandi sfide dell’intelligenza artificiale, specialmente per le aziende con un gergo specifico del settore”, ha affermato Kari Briski, vicepresidente della gestione dei prodotti per l’intelligenza artificiale di Nvidia, in un post sul blog. “Ora queste aziende possono utilizzare l’intelligenza artificiale vocale per ascoltare e rispondere ai clienti con una voce espressiva che è unica per il loro marchio e che guida interazioni più coinvolgenti e piacevoli.
Sintesi vocale
Riva Custom Voice, disponibile nell’ultima versione del kit di sviluppo software di intelligenza artificiale conversazionale Riva di Nvidia, sfrutta l’ apprendimento semi-supervisionato per creare voci sintetiche e personalizzate per software, IVR e altre applicazioni aziendali. Nell’apprendimento semi-supervisionato, uno dei diversi tipi di tecniche di addestramento dell’intelligenza artificiale, gli algoritmi di apprendimento automatico determinano le correlazioni tra i punti dati e quindi utilizzano una piccola quantità di dati etichettati per contrassegnare quei punti. Il sistema viene quindi addestrato in base alle etichette dei dati appena applicate, eliminando la necessità di etichettare manualmente tutti i dati.
L’apprendimento semi-supervisionato è applicabile a una serie di problemi del mondo reale in cui una piccola quantità di dati etichettati impedirebbe il funzionamento degli algoritmi di apprendimento supervisionato. (L’apprendimento supervisionato richiede che tutti i dati siano etichettati per completare il processo di formazione.) Ad esempio, può alleviare il carico di preparazione dei dati nell’analisi del parlato, dove l’etichettatura dei file audio è in genere molto laboriosa.
Nvidia afferma che per la ricerca e lo sviluppo su piccola scala, Riva Custom Voice verrà lanciato in open beta senza alcun costo sul registro dei contenitori Nvidia NGC. Per i clienti con implementazioni su larga scala, c’è Riva Enterprise, una versione recentemente annunciata e completamente gestita di Riva che dovrebbe essere disponibile all’inizio del prossimo anno. Oltre a Riva Custom Voice, Riva offrirà supporto tecnico da esperti Nvidia, afferma l’azienda.
Con Riva Custom Voice, Nvidia sta effettivamente andando in punta di piedi con Google, che nel 2019 ha debuttato con nuove voci WaveNet sintetizzate dall’intelligenza artificiale e voci standard nel suo servizio Cloud Text-to-Speech. Nvidia ha un altro rivale in Amazon, che ha recentemente lanciato un servizio – Brand Voice – che sfrutta l’intelligenza artificiale per generare portavoce personalizzati e offre una serie di stili vocali e stili di emozione attraverso Amazon Polly . Da parte sua, a febbraio, Microsoft ha lanciato un servizio di generazione vocale sintetica chiamato Custom Neural Voices ad accesso limitato.
Potenziale uso improprio
Le voci basate sull’intelligenza artificiale possono fornire coerenza al marchio, che la ricerca mostra è una delle chiavi per aumentare la fedeltà dei clienti. Secondo un sondaggio condotto da Wunderman e Adobe, il 63% dei clienti afferma che i migliori marchi superano le aspettative lungo il percorso del cliente. Un sondaggio separato di Forrester ha rilevato che il 69% dei consumatori statunitensi acquista di più con marchi che offrono esperienze coerenti in negozio e online.
Ma la tecnologia può anche essere utilizzata in modo improprio, come nel caso di un CEO la cui voce è stata imitata in modo abbastanza convincente da avviare un bonifico di 243.000 dollari. Le continue riunioni Zoom dell'” era della forza lavoro ovunque ” hanno creato una grande quantità di dati audio e video che possono essere inseriti in un sistema di apprendimento automatico per creare un duplicato convincente, sottolinea Rick McElroy di VMware. Secondo l’ FBI , gli attori malintenzionati sono destinati a sfruttare i contenuti sintetici per operazioni di influenza cibernetica e straniera, forse già entro i prossimi 12 mesi.
Alcuni provider richiedono che i doppiatori acconsentano all’utilizzo della tecnologia, esaminino ogni potenziale caso d’uso e facciano firmare ai clienti un codice di condotta prima di distribuire una voce sintetica. Microsoft ha affermato che sta lavorando a un modo per incorporare una filigrana digitale all’interno di una voce sintetica per indicare che il contenuto è stato creato con Custom Neural Voice. Altri come Resemble AI, una startup di sintesi vocale, hanno rilasciato strumenti open source progettati per rilevare i “deepfake” vocali.
Nvidia inizialmente non ha annunciato protezioni per prevenire l’abuso di Riva Custom Voice, ma nei suoi termini di servizio Riva, la società proibisce la creazione di contenuti “fraudolenti, falsi, fuorvianti o ingannevoli” così come i contenuti che “promuovono ] discriminazione, fanatismo, razzismo, odio, molestie o danni contro qualsiasi individuo o gruppo”. Aggiorneremo questo pezzo una volta rilasciate ulteriori informazioni.