La musica, una forma d’arte che risuona profondamente nell’animo umano, è stata una compagna costante per tutti noi. L’utilizzo dell’intelligenza artificiale nella creazione musicale ha iniziato a prendere forma diversi decenni fa. Inizialmente, i tentativi erano semplici e intuitivi, con algoritmi di base che generavano melodie piuttosto monotone. Tuttavia, con l’avanzare della tecnologia, le complessità e le capacità dei generatori musicali basati sull’intelligenza artificiale sono notevolmente cresciute, grazie al contributo del deep learning e dell’elaborazione del linguaggio naturale (NLP).
Oggi, piattaforme come Spotify sfruttano l’intelligenza artificiale per ottimizzare l’esperienza di ascolto degli utenti. Questi algoritmi di deep learning analizzano le preferenze individuali, considerando vari elementi musicali come tempo e atmosfera, per suggerire brani personalizzati. Inoltre, analizzano i modelli di ascolto più ampi e esplorano Internet alla ricerca di discussioni e informazioni sulle canzoni, creando così dettagliati profili musicali.
L’evoluzione dell’intelligenza artificiale nella musica è stata un percorso affascinante, che ha spaziato dalla composizione algoritmica alla modellazione generativa. Nelle prime fasi, dagli anni ’50 agli anni ’70, l’attenzione era principalmente sulla composizione algoritmica. In questo approccio, i computer seguivano un insieme di regole predefinite per creare musica. Un notevole esempio di questo periodo è stata la creazione della “Illiac Suite” per quartetto d’archi nel 1957, che ha utilizzato l’algoritmo Monte Carlo per generare altezze e ritmi musicali all’interno dei limiti della teoria musicale tradizionale e delle probabilità statistiche.
In parallelo, un altro pioniere, Iannis Xenakis, ha utilizzato processi stocastici, che coinvolgono distribuzioni di probabilità casuali, per creare musica. Ha impiegato computer e il linguaggio FORTRAN per combinare diverse funzioni di probabilità, creando un sistema in cui rappresentazioni grafiche corrispondevano a spazi sonori differenti.
La musica è un formato di dati ricco e multidimensionale, che comprende elementi come melodia, armonia, ritmo e tempo, rendendo la traduzione del testo in musica una sfida estremamente complessa. Una singola canzone può essere rappresentata da quasi un milione di numeri in un computer, un livello di complessità molto superiore rispetto ad altri formati di dati come immagini o testo.
L’ambito della generazione audio ha visto l’adozione di approcci innovativi per superare le sfide legate alla creazione di suoni realistici. Uno di questi metodi coinvolge la generazione di uno spettrogramma e la successiva conversione in audio. Un altro approccio sfrutta la rappresentazione simbolica della musica, come gli spartiti, che possono essere interpretati e suonati da musicisti. Questo metodo è stato con successo digitalizzato con strumenti come il “Chamber Ensemble Generator” di Magenta, che crea musica in formato MIDI, un protocollo che facilita la comunicazione tra computer e strumenti musicali.
Nonostante i progressi ottenuti con questi approcci, presentano ancora alcune limitazioni, evidenziando la complessità intrinseca della generazione audio.
Attualmente, i modelli autoregressivi basati su trasformatori e i modelli di diffusione basati su U-Net sono considerati all’avanguardia nella generazione di audio, testo, musica e altro ancora. La serie GPT di OpenAI e molti altri modelli di linguaggio naturale sono alimentati da trasformatori che utilizzano architetture di codificatori, decodificatori o entrambi. Questi avanzamenti tecnologici hanno contribuito in modo significativo a raggiungere risultati di punta nella generazione audio.
In questo articolo, esploreremo due esempi significativi: MusicLM di Google e Stable Audio di Stability AI, entrambi dimostrano le straordinarie capacità delle tecnologie di generazione audio avanzate.
MusicLM di Google, rilasciato a maggio di quest’anno, è in grado di generare brani musicali ad alta fedeltà che catturano esattamente il sentimento descritto nel testo. Utilizzando la modellazione gerarchica sequenza per sequenza, MusicLM può trasformare le descrizioni testuali in musica che risuona a 24 kHz per lunghe durate. Il modello opera a un livello multidimensionale, rispettando non solo le indicazioni testuali ma anche le melodie, consentendo così di prendere una melodia canticchiata o fischiata e trasformarla in uno stile specificato dal testo. MusicLM si basa sui principi di AudioLM, un framework introdotto nel 2022 per la generazione audio. Questo approccio offre alta fedeltà e coerenza a lungo termine per durate significative. Per semplificare la generazione, MusicLM estende le capacità di AudioLM incorporando il condizionamento del testo, una tecnica che allinea l’audio generato con le sfumature del testo di input. Ciò viene realizzato attraverso uno spazio di incorporamento condiviso creato con MuLan, un modello che associa la musica alle descrizioni testuali in uno spazio di incorporamento. Questa strategia elimina la necessità di didascalie durante l’addestramento, consentendo al modello di essere addestrato su un vasto corpus di audio. MusicLM utilizza anche SoundStream come tokenizzatore audio, capace di ricostruire musica a 24 kHz a 6 kbps con una notevole fedeltà, grazie all’utilizzo della quantizzazione vettoriale residua (RVQ) per una compressione audio efficiente e di alta qualità. Inoltre, MusicLM consente il condizionamento della melodia, assicurando che anche una semplice melodia canticchiata possa diventare la base per un’esperienza uditiva straordinaria, ottimizzata per rispecchiare le precise descrizioni stilistiche del testo. Gli sviluppatori di MusicLM hanno anche reso open source MusicCaps, un dataset contenente 5,5k coppie di musica e testo, ciascuna accompagnata da dettagliate descrizioni testuali create da esperti umani.
Stability AI ha introdotto recentemente “Stable Audio“, un’architettura basata su un modello di diffusione latente condizionata dai metadati del testo, dalla durata del file audio e dall’orario di inizio. Questo approccio, simile a MusicLM di Google, consente di controllare il contenuto e la lunghezza dell’audio generato, consentendo la creazione di clip audio con lunghezze specifiche fino alla dimensione della finestra di addestramento. Stable Audio è composto da diversi componenti, tra cui un Variational Autoencoder (VAE) e un modello di diffusione condizionata basato su U-Net, che lavorano in sinergia con un codificatore di testo. Il VAE facilita una generazione e un addestramento più rapidi comprimendo l’audio stereo in una codifica latente con perdita di dati compressa, resistente al rumore e invertibile, evitando la necessità di lavorare con campioni audio grezzi. Il codificatore di testo, derivato da un modello CLAP, svolge un ruolo fondamentale nella comprensione delle complesse relazioni tra parole e suoni, offrendo una rappresentazione informativa del testo di input tokenizzato. Ciò si ottiene utilizzando funzionalità di testo dal penultimo livello del codificatore di testo CLAP, che vengono integrate nella diffusione U-Net attraverso livelli di attenzione incrociata. Un elemento cruciale è l’incorporazione degli aspetti temporali, calcolati in base al secondo iniziale del brano audio e alla sua durata totale originale. Questi valori, tradotti in incorporamenti discreti al secondo, vengono combinati con i token di richiesta e inseriti nei livelli di attenzione incrociata di U-Net, consentendo agli utenti di determinare la lunghezza complessiva dell’audio in uscita. Il modello Stable Audio è stato addestrato su un ampio set di dati di oltre 800.000 file audio, in collaborazione con il fornitore di musica stock AudioSparx. Le applicazioni di queste tracce audio di alta qualità sono infinite. Registi possono utilizzarle per creare paesaggi sonori coinvolgenti, gli inserzionisti possono personalizzarle per i loro scopi commerciali e i singoli creatori e artisti possono sperimentare e innovare con un potenziale illimitato per creare pezzi sonori che narrano storie, evocano emozioni e creano atmosfere di profondità, in modo precedentemente difficile da ottenere senza un budget considerevole o competenze tecniche avanzate.