Riffusion il cugino di Stable Diffusion

Incontra il fantastico cugino di Stable Diffusion, “Riffusion”
Il modello può generare infinite variazioni di un prompt di testo o di una clip audio caricata che può anche essere modificata inserendo ulteriori prompt.

Da quando Stable Diffusion è diventato open source, molte nuove innovazioni stanno venendo a galla. Il più recente è per la creazione di musica generata dall’intelligenza artificiale in tempo reale: Riffusion . Adottando un approccio interessante per la creazione di musica utilizzando immagini di audio anziché audio, Riffusion è costruito perfezionando Stable Diffusion per creare immagini di spettrogrammi, essenzialmente visualizzazioni di audio.

Il modello può generare infinite variazioni di un prompt di testo o di una clip audio caricata che può anche essere modificata inserendo ulteriori prompt.

Processo e caratteristiche

Gli spettrogrammi sono rappresentazioni visive dell’audio che mostrano l’ampiezza delle frequenze nel tempo. Questi elementi visivi generati possono quindi essere convertiti in clip audio. Lo spettrogramma viene calcolato dall’audio con trasformata di Fourier a breve termine (STFT), approssimando l’audio utilizzando una combinazione di onde sinusoidali che hanno ampiezze e fasi variabili.

Oltre al text-to-audio, i modelli basati su Stable Diffusion possono anche sfruttare la capacità image-to-image. Ciò è stato utile per modificare i suoni apportando modifiche all’immagine preservando al tempo stesso il contenuto originale dell’audio utilizzando il parametro dell’intensità di riduzione del rumore.

Per creare musica generata dall’intelligenza artificiale infinitamente variabile, gli sviluppatori hanno interpolato tra prompt e seed utilizzando lo spazio latente presente nei modelli di diffusione. Lo spazio latente è costituito da oggetti simili tra loro, che consentono transizioni fluide e burrose anche con suggerimenti disparati.

A settembre è stato rilasciato un modello simile basato su Stable Diffusion, Dance Diffusion , che potrebbe generare clip musicali. È stato addestrato su centinaia di ore di canzoni ed è stato quindi considerato una scelta etica limite per Stability AI.

Riffusion il cugino di Stable Diffusion

Diihal

Di ihal

Articoli correlati

Microsoft presenta tre nuovi modelli MAI, intelligenza artificiale proprietaria per voce, immagini e trascrizione

ByteDance presenta Seedance 2.0 per video AI e Seedream 5.0 Lite per immagini

Luma AI lancia Uni-1, la nuova intelligenza artificiale che crea immagini pensando come un essere umano

Ultimi Post

Buona Pasqua!!!

Google lancia Search Live: ricerca vocale con fotocamera

Vinitaly 2026 introduce Bacco AI, agente autonomo per orientarsi tra gli espositori

Galaxy S26 Ultra: editing foto con intelligenza artificiale