È emersa una notizia nel campo dell’intelligenza artificiale (IA) che potrebbe rivoluzionare il settore. Si tratta del lancio di “OpenVoice” da parte della startup canadese di IA chiamata Myshell, un modello open source di replica vocale che sta attirando molta attenzione.
Secondo quanto riportato da Venture Beat, OpenVoice è stato sviluppato da un team di ricercatori provenienti dal MIT, dall’Università Tsinghua e da Myshell. Questo modello è straordinario perché è in grado di replicare perfettamente la voce dell’utente in soli 1 secondo e ciò che lo rende unico è che richiede solo un piccolo campione di input gratuito, senza la necessità di inserire una frase campione come fanno altri modelli.
OpenVoice sfrutta una tecnologia di apprendimento chiamata “zero shot” che gli consente di replicare e generare il parlato anche per lingue non presenti nei dati di addestramento. Il modello è diviso in due parti: un modello di sintesi vocale (Text-to-Speech, TTS) e un convertitore di toni.
Il TTS impara la voce e il tono dell’utente e legge il testo con lo stesso tono. Sono stati addestrati circa 30.000 campioni vocali, ognuno in lingua inglese, cinese o giapponese e che includono vari aspetti come l’emozione, l’intonazione, il ritmo e le pause.
Il convertitore di toni svolge un ruolo importante nel controllare l’emozione, l’intonazione e il ritmo della voce dell’utente, permettendo anche la conversione in diverse lingue nazionali. Ad esempio, se si inserisce un file vocale di un bambino britannico che parla con entusiasmo, il modello può convertirlo in altre lingue, incluso il coreano. Si può quasi pensare a questo modello come a un’intelligenza artificiale che “imita le corde vocali”.
Myshell ha sottolineato che OpenVoice può replicare le voci utilizzando una quantità significativamente inferiore di risorse di elaborazione rispetto ai modelli di replica vocale AI esistenti e che la voce dell’utente può essere replicata in un solo secondo, rendendola utile per la sintesi vocale in tempo reale.
La notizia ancora più interessante è che OpenVoice è stato rilasciato come software open source, disponibile tramite piattaforme come Hugging Face. Tuttavia, per generare profitti da questo modello, è richiesta una sottoscrizione mensile.
Myshell, una startup canadese fondata nel 2023, si impegna per la “democratizzazione dell’intelligenza artificiale” e si concentra sui servizi di IA per creatori e nell’ambito dei chatbot. Finora, hanno attratto investimenti per un totale di 5,6 milioni di dollari e hanno una base di utenti che supera le 400.000 persone.