Riffusion il cugino di Stable Diffusion

Diihal

Dic 17, 2022

Incontra il fantastico cugino di Stable Diffusion, “Riffusion”
Il modello può generare infinite variazioni di un prompt di testo o di una clip audio caricata che può anche essere modificata inserendo ulteriori prompt.

Da quando Stable Diffusion è diventato open source, molte nuove innovazioni stanno venendo a galla. Il più recente è per la creazione di musica generata dall’intelligenza artificiale in tempo reale: Riffusion . Adottando un approccio interessante per la creazione di musica utilizzando immagini di audio anziché audio, Riffusion è costruito perfezionando Stable Diffusion per creare immagini di spettrogrammi, essenzialmente visualizzazioni di audio.

Il modello può generare infinite variazioni di un prompt di testo o di una clip audio caricata che può anche essere modificata inserendo ulteriori prompt.

Processo e caratteristiche

Gli spettrogrammi sono rappresentazioni visive dell’audio che mostrano l’ampiezza delle frequenze nel tempo. Questi elementi visivi generati possono quindi essere convertiti in clip audio. Lo spettrogramma viene calcolato dall’audio con trasformata di Fourier a breve termine (STFT), approssimando l’audio utilizzando una combinazione di onde sinusoidali che hanno ampiezze e fasi variabili.

Oltre al text-to-audio, i modelli basati su Stable Diffusion possono anche sfruttare la capacità image-to-image. Ciò è stato utile per modificare i suoni apportando modifiche all’immagine preservando al tempo stesso il contenuto originale dell’audio utilizzando il parametro dell’intensità di riduzione del rumore.

Per creare musica generata dall’intelligenza artificiale infinitamente variabile, gli sviluppatori hanno interpolato tra prompt e seed utilizzando lo spazio latente presente nei modelli di diffusione. Lo spazio latente è costituito da oggetti simili tra loro, che consentono transizioni fluide e burrose anche con suggerimenti disparati.

A settembre è stato rilasciato un modello simile basato su Stable Diffusion, Dance Diffusion , che potrebbe generare clip musicali. È stato addestrato su centinaia di ore di canzoni ed è stato quindi considerato una scelta etica limite per Stability AI.

Riffusion il cugino di Stable Diffusion

Diihal

Di ihal

Articoli correlati

Turing aggiorna GPAI con agenti specializzati nella generazione di immagini scientifiche

Midjourney acquisisce l’app di astrologia Co-Star e prepara la sua prima app mobile per la generazione di immagini

Black Forest presenta FLUX 3 per unificare immagini, video, audio e azioni robotiche in un’unica architettura

Ultimi Post

Conversazioni e Artifacts di Claude sono comparsi nei risultati di Google attraverso i link pubblici

OpenAI sospende il modello Erdős dopo ripetute evasioni della sandbox durante i test interni

Google AI Overviews compare ormai nel 43% delle ricerche e sposta gli utenti verso la ricerca conversazionale

Moonshot pubblica i pesi di Kimi K3 con una licenza commerciale basata sui ricavi