Incontra il fantastico cugino di Stable Diffusion, “Riffusion”
Il modello può generare infinite variazioni di un prompt di testo o di una clip audio caricata che può anche essere modificata inserendo ulteriori prompt.
 
Da quando Stable Diffusion è diventato open source, molte nuove innovazioni stanno venendo a galla. Il più recente è per la creazione di musica generata dall’intelligenza artificiale in tempo reale: Riffusion . Adottando un approccio interessante per la creazione di musica utilizzando immagini di audio anziché audio, Riffusion è costruito perfezionando Stable Diffusion per creare immagini di spettrogrammi, essenzialmente visualizzazioni di audio. 

Il modello può generare infinite variazioni di un prompt di testo o di una clip audio caricata che può anche essere modificata inserendo ulteriori prompt. 

 

 Processo e caratteristiche

Gli spettrogrammi sono rappresentazioni visive dell’audio che mostrano l’ampiezza delle frequenze nel tempo. Questi elementi visivi generati possono quindi essere convertiti in clip audio. Lo spettrogramma viene calcolato dall’audio con trasformata di Fourier a breve termine (STFT), approssimando l’audio utilizzando una combinazione di onde sinusoidali che hanno ampiezze e fasi variabili.


Oltre al text-to-audio, i modelli basati su Stable Diffusion possono anche sfruttare la capacità image-to-image. Ciò è stato utile per modificare i suoni apportando modifiche all’immagine preservando al tempo stesso il contenuto originale dell’audio utilizzando il parametro dell’intensità di riduzione del rumore.

Per creare musica generata dall’intelligenza artificiale infinitamente variabile, gli sviluppatori hanno interpolato tra prompt e seed utilizzando lo spazio latente presente nei modelli di diffusione. Lo spazio latente è costituito da oggetti simili tra loro, che consentono transizioni fluide e burrose anche con suggerimenti disparati.

A settembre è stato rilasciato un modello simile basato su Stable Diffusion, Dance Diffusion , che potrebbe generare clip musicali. È stato addestrato su centinaia di ore di canzoni ed è stato quindi considerato una scelta etica limite per Stability AI. 

Di ihal