La clonazione vocale è una delle aree in rapida espansione nell’ambito dell’intelligenza artificiale generativa. Questo termine si riferisce alla capacità di replicare gli stili vocali di una persona, compresi tono, timbro, ritmi, manierismi e pronunce uniche, attraverso l’uso della tecnologia.
Mentre alcune startup, come ElevenLabs, hanno ottenuto finanziamenti significativi per sviluppare questa ricerca, Meta Platforms, la società madre di Facebook, Instagram, WhatsApp e Oculus VR, ha lanciato il proprio programma di clonazione vocale gratuito chiamato Audiobox, ma con alcune limitazioni.
Audiobox è stato presentato sul sito web di Meta dai ricercatori del laboratorio Facebook AI Research (FAIR) e rappresenta un “nuovo modello di ricerca di base per la generazione audio”. Il modello si basa sul lavoro precedente svolto da Meta nell’ambito della clonazione vocale, noto come Voicebox.
Audiobox è descritto come in grado di generare voci e effetti sonori utilizzando una combinazione di input vocali e istruzioni di testo in linguaggio naturale. Questo semplifica la creazione di audio personalizzato per una vasta gamma di applicazioni. Gli utenti possono semplicemente digitare una frase che desiderano che venga pronunciata da una voce clonata o fornire una descrizione di un suono da generare, e Audiobox si occuperà del resto. Gli utenti hanno anche la possibilità di registrare la propria voce e farla clonare da Audiobox.
Meta ha sviluppato una “famiglia di modelli”, tra cui uno per la clonazione del parlato e un altro per la generazione di suoni ambientali ed effetti sonori come abbai di cani, sirene o suoni di bambini che giocano. Questi modelli si basano sull’apprendimento autosupervisionato (SSL), una tecnica di deep learning in cui gli algoritmi generano le proprie etichette per i dati senza etichetta. Questo approccio è stato scelto per affrontare la sfida di avere dati etichettati di alta qualità disponibili in quantità limitate.
Tuttavia, è importante notare che gran parte dei dati utilizzati per addestrare questi modelli di intelligenza artificiale sono stati generati dall’uomo e includono registrazioni audio di diverse fonti, come audiolibri, podcast, discorsi e conversazioni, tra gli altri.
Nonostante i progressi in questo campo, rimangono questioni legali importanti. Ad esempio, c’è preoccupazione tra artisti, autori e editori musicali riguardo all’uso di materiale protetto da copyright per l’addestramento di sistemi di intelligenza artificiale senza il consenso esplicito dei creatori o dei detentori dei diritti. Meta ha incluso un disclaimer con le sue demo interattive di Audiobox, sottolineando che queste sono per scopi di ricerca e non possono essere utilizzate a fini commerciali. Inoltre, l’uso di Audiobox è limitato nei territori degli Stati dell’Illinois e del Texas, a causa delle leggi statali che vietano certe forme di raccolta audio.
È interessante notare che, al momento, Audiobox non è un progetto open source, nonostante l’impegno di Meta nel campo dell’open source in altre aree. Tuttavia, è possibile che in futuro possano emergere versioni commerciali o progetti open source simili da parte di altre organizzazioni.