Play.ht, lo sviluppatore di voci sintetiche, ha recentemente presentato il suo nuovo modello di clonazione vocale chiamato Parrot. Grazie a questo modello, è possibile creare una voce deepfake a partire da una registrazione di pochi secondi del discorso dell’utente. Parrot è attualmente disponibile in versione beta su Play.ht, la piattaforma di sintesi vocale che si rivolge ai creatori di contenuti alla ricerca di soluzioni di clonazione vocale.

L’attenzione su Play.ht è stata attirata quando ha pubblicato una conversazione immaginaria tra il defunto fondatore di Apple, Steve Jobs, e Joe Rogan, utilizzando i suoi cloni vocali generati dall’intelligenza artificiale e una sceneggiatura composta dal modello di linguaggio di grandi dimensioni GPT-3 di OpenAI. Questo ha dato il via al suo spettacolo Podcast.ai ormai defunto, che dimostra i servizi di sintesi vocale offerti da Play.ht, con episodi in cui Zach Galifianakis ha intervistato Quentin Tarantino e Oprah ha condiviso suggerimenti per alleviare lo stress.

Le voci sintetiche di Play.ht si basavano sul modello Peregrine, ma ora sono state sostituite dal nuovo modello Parrot, continuando il tema degli uccelli per Play.ht. Parrot è stato addestrato su un set di dati più ampio e ha utilizzato ciò che gli sviluppatori hanno appreso da Peregrine per migliorare il modo in cui è stata gestita la formazione. Le voci sintetiche vengono quindi utilizzate per elaborare il testo come audio. Secondo l’azienda, Parrot è capace di fare tutti i tipi di accenti, anche se può parlare solo inglese. Tuttavia, Parrot può utilizzare i modelli di clonazione vocale di persone che parlano altre lingue, in modo che sembrino parlare inglese, pur mantenendo intatto il loro accento originale. Inoltre, Play.ht sottolinea che i suoi modelli non sono semplici cloni vocali che leggono un testo, ma l’intelligenza artificiale comprende anche l’emozione che dovrebbe essere presente in una voce in base al contesto dell’intero testo e regola il discorso di conseguenza.

L’approccio zero-shot di Parrot richiede solo una breve registrazione, ma Play.ht ha anche un metodo di clonazione vocale ad alta fedeltà che utilizza circa 20 minuti di audio per una clonazione più completa e sfumata. L’audio può essere creato su Play.ht o incorporato come API nel prodotto di un cliente.

I fondatori di Play.ht hanno spiegato in un post su Y-Combinator che i creatori di contenuti di ogni tipo impiegano molto tempo e sforzi per registrare e modificare audio di alta qualità, ma la loro piattaforma rende tutto questo molto più semplice, come scrivere e modificare un testo. I loro utenti spaziano da singoli creatori che cercano di dare voce ai propri video, podcast, ecc. a team di varie aziende che creano contenuti audio dinamici. Play.ht offre una soluzione di clonazione vocale che consente di generare discorsi espressivi veramente a livello umano, che permette a chiunque di clonare voci all’istante con una forte somiglianza.

La società ha utilizzato modelli e API TTS esistenti in passato, ma quando ha iniziato a parlare con i propri clienti nei giochi, nella produzione multimediale e in altri settori, ha notato che la gente non gradiva lo stile TTS robotico monotono. Pertanto, ha deciso di raddoppiare la formazione di un nuovo modello basato sulle nuove architetture emergenti utilizzando trasformatori e apprendimento auto-supervisionato.

In sintesi, Parrot rappresenta un importante passo avanti per Play.ht, consentendo di clonare voci in modo rapido e preciso, offrendo alle persone l’opportunità di creare voci sintetiche con un alto livello di espressività e intelligenza artificiale avanzata. Il nuovo modello è disponibile in versione beta e rappresenta un’aggiunta interessante alla gamma di soluzioni offerte da Play.ht ai creatori di contenuti di ogni tipo.

Di Fantasy