Oggi, Stability AI ha annunciato il rilascio pubblico iniziale della sua innovativa tecnologia denominata Stable Audio, che offre a chiunque la possibilità di creare brevi clip audio utilizzando semplici istruzioni di testo. Stability AI è conosciuta soprattutto per essere l’organizzazione dietro la tecnologia di intelligenza artificiale di generazione di testo in immagini chiamata Stable Diffusion.

A luglio, Stable Diffusion ha visto un significativo aggiornamento con l’introduzione del suo nuovo modello base SDXL, il quale ha migliorato notevolmente la composizione delle immagini. Da allora, l’azienda ha espanso il suo campo di applicazione, andando oltre le immagini per approdare al codice, attraverso il lancio di StableCode ad agosto.

StableAudio è una nuova e interessante aggiunta, benché condivida molte delle tecniche di base di intelligenza artificiale con Stable Diffusion, che permettono la creazione di immagini. Tuttavia, la tecnologia Stable Audio si basa su una modalità di diffusione simile, ma è addestrata per lavorare sull’audio, permettendo così la generazione di nuovi clip audio.

“Sebbene siamo conosciuti soprattutto per il nostro lavoro nel campo delle immagini, stiamo ora lanciando il nostro primo prodotto per la generazione di musica e audio, denominato Stable Audio,” ha dichiarato Ed Newton-Rex, vicepresidente audio di Stability AI, in una conversazione con VentureBeat. “Il concetto è molto semplice: basta descrivere la musica o l’audio che si desidera ascoltare in un testo, e il nostro sistema lo genererà per voi.”

Per quanto riguarda il funzionamento di Stable Audio nella generazione di nuove composizioni musicali, vale la pena notare che Newton-Rex è ben noto nel mondo della musica generata da computer, avendo fondato la sua startup chiamata Jukedeck nel 2011, successivamente acquisita da TikTok nel 2019. Tuttavia, la tecnologia alla base di Stable Audio non deriva da Jukedeck, ma piuttosto da un progetto di ricerca interno di Stability AI chiamato Harmonai, creato da Zach Evans.

“Si tratta di prendere le stesse idee tecnologiche provenienti dal campo della generazione di immagini e applicarle al dominio dell’audio,” ha spiegato Evans in una conversazione con VentureBeat. “Harmonai è il nostro laboratorio di ricerca che ho avviato, ed è parte integrante di Stability AI; rappresenta essenzialmente un modo per rendere la generazione di musica un sforzo collaborativo e aperto.”

La capacità di generare tracce audio di base con questa tecnologia non è nuova, poiché in passato sono state utilizzate tecniche di “generazione simbolica”. Questo tipo di generazione si basa spesso su file MIDI (Musical Instrument Digital Interface) per rappresentare, ad esempio, un battito di tamburi. Tuttavia, la potenza generativa dell’intelligenza artificiale di Stable Audio è diversa poiché permette agli utenti di creare nuova musica che va oltre le note ripetitive comuni associate a MIDI e alla generazione simbolica.

Stable Audio opera direttamente sui campioni audio grezzi, garantendo una qualità superiore nell’output. Il modello è stato addestrato su un vasto set di dati costituito da oltre 800.000 brani musicali concessi in licenza dalla libreria audio AudioSparks.

Evans ha spiegato: “Con così tanti dati, abbiamo a disposizione metadati molto completi. Una delle sfide più complesse nella creazione di questi modelli basati su testo è avere dati audio di alta qualità con corrispondenti metadati di qualità.”

Va notato che, a differenza dei modelli di generazione di immagini che spesso vengono utilizzati per creare opere in uno specifico stile artistico, Stable Audio non è pensato per generare musica che imiti uno stile particolare o un artista specifico, come i Beatles, ad esempio.

Newton-Rex ha sottolineato: “Non ci siamo specializzati nei Beatles. Quando si tratta di generare campioni audio per i musicisti, questo solitamente non è ciò che le persone cercano. In base alla mia esperienza, la maggior parte dei musicisti desidera sperimentare e essere più creativa.”

Il modello di diffusione di Stable Audio è dotato di circa 1,2 miliardi di parametri, simile alla versione originale di Stable Diffusion utilizzata per la generazione di immagini. Le istruzioni testuali utilizzate per guidare la generazione dell’audio sono state completamente create e addestrate da Stability AI. Evans ha spiegato che il modello testuale sfrutta una tecnica chiamata Contrastive Language Audio Pretraining (CLAP). In concomitanza con il lancio di Stable Audio, Stability AI pubblicherà anche una guida rapida per aiutare gli utenti a formulare istruzioni testuali che porteranno alla generazione dei tipi di file audio desiderati.

Stable Audio sarà accessibile sia in versione gratuita che tramite un piano Pro a $12 al mese. La versione gratuita consentirà fino a 20 generazioni al mese di tracce audio di durata massima di 20 secondi, mentre la versione Pro offrirà 500 generazioni e tracce audio fino a 90 secondi.

Newton-Rex ha concluso: “Vogliamo dare a tutti la possibilità di utilizzarlo e fare esperienze con esso”.

Di Fantasy