Stability AI presenta il nuovo Stable Audio Open per il sound design

Oggi Stability AI sta espandendo i suoi sforzi nell’intelligenza artificiale generativa per l’audio, presentando Stable Audio Open 1.0.

Stability AI è nota principalmente per la sua tecnologia AI che combina testo e immagini, ma ha un’ampia gamma di prodotti, inclusi modelli per codice, testo e audio. Nel settembre 2023, ha lanciato Stable Audio, un tool per generare audio da testo. La versione 2.0 è stata rilasciata il 3 aprile, migliorando la chiarezza e la lunghezza dell’audio generato.

Stable Audio completo è disponibile per uso commerciale e può generare audio fino a 3 minuti, ma la nuova versione, Stable Audio Open, è più limitata, focalizzandosi su brevi effetti sonori anziché brani completi. È un modello aperto, sebbene non sia open source nel senso tradizionale. Gli utenti possono accedervi tramite una licenza della comunità di ricerca non commerciale di Stability AI.

Zach Evans di Stability AI ha dichiarato che Stable Audio Open è pensato per ricercatori e produttori audio per accelerare la ricerca e l’uso creativo di strumenti audio generativi. È specializzato in ritmi, suoni ambientali e altri campioni audio per la produzione musicale e il sound design.

A differenza della versione commerciale, Stable Audio Open si concentra su dati audio di alta qualità fino a 47 secondi utilizzando istruzioni di testo. È stato addestrato con dati da FreeSound e Free Music Archive, evitando materiale protetto da copyright.

Un vantaggio principale di Stable Audio Open è la possibilità di mettere a punto il modello sui propri dati audio personalizzati. Ad esempio, un batterista potrebbe usarlo per generare nuovi ritmi basandosi sui propri campioni di batteria.

La messa a punto è possibile grazie alla libreria Stable Audio Tools, concessa con una licenza open source. I pesi del modello sono disponibili su Hugging Face.

Il team di ricerca audio di Stability AI continua a lavorare per migliorare la qualità e la controllabilità dei loro modelli, e si aspettano ulteriori rilasci che riflettano i progressi nella ricerca.

Stability AI presenta il nuovo Stable Audio Open per il sound design

DiFantasy

Di Fantasy

Articoli correlati

Anthropic introduce J-Lens per analizzare il workspace interno dei modelli Claude

Claude Cowork arriva su web e mobile per gestire attività non legate al coding

Google separa la cronologia di ricerca e salva immagini e audio usati nei servizi AI

Ultimi Post

Anthropic introduce J-Lens per analizzare il workspace interno dei modelli Claude

Claude Cowork arriva su web e mobile per gestire attività non legate al coding

Google separa la cronologia di ricerca e salva immagini e audio usati nei servizi AI

Apple attiva in iOS 27 i controlli vocali avanzati per Siri