Stability AI continua il suo impegno nell’ambito dell’intelligenza artificiale generativa con il nuovo modello audio Stable Audio 2.0.
Sebbene sia nota principalmente per i suoi modelli che trasformano il testo in immagini, Stable Audio è solo uno dei vari progetti dell’azienda. La versione iniziale di Stable Audio è stata lanciata nel settembre 2023, consentendo agli utenti di creare brevi clip audio da semplici messaggi di testo. Con Stable Audio 2.0, ora gli utenti possono generare tracce audio fino a 3 minuti, il doppio della durata della versione precedente.
Inoltre, oltre alla conversione da testo ad audio, Stable Audio 2.0 offre anche la possibilità di generare audio a partire da altri file audio, consentendo agli utenti di caricare un campione da utilizzare come base per la creazione. Questo servizio è attualmente gratuito sul sito web di Stable Audio, ma presto sarà disponibile anche tramite API per gli sviluppatori che desiderano integrarlo nei loro servizi.
Nonostante le recenti controversie legate alle dimissioni dell’ex CEO e fondatore Emad Mostaque, l’azienda continua a progredire e considera l’aggiornamento Stable Audio 2.0 come una prova della sua stabilità e resilienza.
Zach Evans, responsabile della ricerca audio presso Stability AI, ha spiegato che il focus principale durante lo sviluppo di Stable Audio 1.0 era sulla creazione di un modello di conversione testo-audio rivoluzionario, caratterizzato da un’elevata fedeltà sonora e una durata significativa degli output.
Stable Audio 2.0 va oltre, introducendo la capacità di generare tracce musicali complete con una struttura coerente, sfruttando la tecnologia di diffusione latente. Questo modello è stato addestrato con una maggiore compressione dei dati, consentendo di produrre output più lunghi senza eccessivo aumento dei tempi di elaborazione.
Inoltre, Stable Audio 2.0 permette la generazione di audio da audio, consentendo agli utenti di caricare campioni sonori e modificarli tramite istruzioni testuali. Questo amplia le possibilità creative e la gamma di effetti sonori che possono essere prodotti tramite intelligenza artificiale.
Per quanto riguarda le questioni legate al copyright, Stability AI ha adottato misure per proteggere la proprietà intellettuale, addestrando Stable Audio 2.0 solo con dati concessi in licenza e monitorando i caricamenti audio per evitare violazioni di copyright.
Attualmente, Stable Audio viene commercializzato tramite abbonamenti all’applicazione web e presto sarà disponibile anche tramite API. Tuttavia, i modelli audio non saranno immediatamente disponibili per il download, ma l’azienda sta lavorando per rendere disponibili modelli aperti entro la fine dell’anno.