La Fundamental AI Research (FAIR) di Meta ha rilasciato un nuovo framework di intelligenza artificiale generativa per la musica e il suono chiamato AudioCraft. Il nuovo framework può trasformare un messaggio di testo in qualsiasi tipo di suono fondendo il modello di testo in musica MusicGen con lo strumento di intelligenza artificiale da testo a suono naturale AudioGen, potenziato da EnCodec, un decodificatore che comprime l’addestramento richiesto per il I modelli di intelligenza artificiale funzionano.
Meta ha presentato per la prima volta MusicGen un paio di mesi fa, dimostrando come potrebbe tradurre un prompt scritto in musica, sebbene i campioni fossero lunghi solo circa 12 secondi. Il testo potrebbe essere integrato da una clip audio che serva da riferimento per l’intelligenza artificiale su cui costruire. AudioGen fa un lavoro simile ma con un’enfasi sul suono ambientale realistico. Per far in modo che AudioCraft funzioni come desiderato, Meta si affida a EnCodec, che elabora il suono grezzo in token audio, creando quello che Meta chiama un “vocabolario fisso” che può addestrare modelli linguistici per generare nuovi suoni, che si tratti di uno sfondo naturale o di una partitura musicale. Il risultato, AudioCraft, semplifica il processo rispetto ai progetti precedenti.
“AudioCraft funziona per la generazione e la compressione di musica e suoni, tutto nello stesso posto. Poiché è facile da costruire e riutilizzare, le persone che desiderano creare generatori di suoni, algoritmi di compressione o generatori di musica migliori possono fare tutto nella stessa base di codice e costruire su ciò che hanno fatto altri “, ha spiegato Meta in un post sul blog . “E sebbene sia stato fatto molto lavoro per rendere semplici i modelli, il team si è ugualmente impegnato a garantire che AudioCraft potesse supportare lo stato dell’arte. Le persone possono facilmente estendere i nostri modelli e adattarli ai loro casi d’uso per la ricerca. Ci sono possibilità quasi illimitate una volta che si dà alle persone l’accesso ai modelli per adattarli alle loro esigenze. Ed è quello che vogliamo fare con questa famiglia di modelli: dare alle persone il potere di estendere il proprio lavoro”.
Rendere AudioCraft open-source offre agli sviluppatori la flessibilità di giocare con il framework dell’IA, che probabilmente attirerà molti utenti oltre a quelli interessati a sintetizzare tracce audio. Potrebbe anche dare a Meta un vantaggio rispetto alla concorrenza. È simile alla strategia di Meta nel rilasciare il nuovo modello di linguaggio di grandi dimensioni Llama 2 senza richiedere un canone di licenza commerciale. In confronto, il compositore musicale AI generativo MusicLM di Google è stato intravisto solo in poche dimostrazioni e deve ancora fare colpo tra il pubblico oltre quell’iniziale esplosione di attenzione.
Non che AudioCraft sia unico come compositore sonoro sintetico. L’intelligenza artificiale generativa alimenta strumenti come Riffusion, che utilizza Stable Diffusion per trasformare un messaggio di testo in un sonogramma. Riffusion utilizza quindi Torchaudio per leggere la frequenza e il tempo per riprodurre il suono. Anche il generatore di canzoni sintetiche di Voicemod, che abbina i testi inviati a una selezione di canzoni popolari e voci AI, e il LyricStudio centrato sul testo, che afferma che la sua AI ha aiutato a scrivere più di un milione di canzoni, contribuiscono alla sinfonia complessiva.
AudioCraft ha il potenziale per rivoluzionare il modo in cui creiamo e sperimentiamo la musica e il suono. Ad esempio, potrebbe essere utilizzato per:
- Creare musica personalizzata per i singoli utenti
- Generare suoni ambientali realistici per i giochi e i film
- Scrivere musica per scopi pubblicitari o educativi
- Creare nuove forme di arte e intrattenimento
AudioCraft è ancora in fase di sviluppo, ma ha il potenziale per diventare uno strumento potente per la creazione e l’espressione creativa. È entusiasmante vedere come verrà utilizzato nel prossimo futuro.