Il team Fundamental AI Research (FAIR) di Meta ha annunciato il rilascio di diversi nuovi modelli e strumenti di intelligenza artificiale rivolti ai ricercatori. Questi strumenti si concentrano sulla generazione audio, sulla visualizzazione del testo e sulla filigrana.
Il primo nuovo modello è JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation), progettato per migliorare la generazione audio basata su testo. JASCO permette agli utenti di regolare caratteristiche come accordi, batteria e melodie per ottenere il suono desiderato, utilizzando input audio come accordi o ritmi.
Meta rilascerà il codice di inferenza di JASCO sotto licenza MIT come parte della libreria di modelli audio AI AudioCraft, mentre il modello pre-addestrato sarà disponibile con licenza Creative Commons non commerciale.
Un altro strumento annunciato è AudioSeal, progettato per aggiungere filigrane al parlato generato dall’intelligenza artificiale. Meta lo ha descritto come la prima tecnica di watermarking audio per il rilevamento localizzato del parlato generato dall’intelligenza artificiale all’interno di snippet audio più lunghi. Questo approccio consente un rilevamento più veloce ed efficiente, aumentando la velocità di rilevamento di 485 volte. AudioSeal sarà rilasciato con una licenza commerciale.
Inoltre, FAIR renderà disponibili due versioni del suo modello Chameleon di testo multimodale per la ricerca: Chameleon 7B e 34B. Questi modelli permettono agli utenti di indirizzare attività che richiedono comprensione visiva e testuale, come la didascalia delle immagini. Meta ha specificato che, al momento, i modelli di generazione delle immagini Chameleon non saranno rilasciati e solo quelli relativi al testo saranno accessibili.
Meta consentirà ai ricercatori di accedere anche al suo approccio di previsione multi-token per modelli linguistici, che addestra su più parole future contemporaneamente, disponibile con licenza non commerciale e di sola ricerca.