Dopo il testo in immagine e il testo in video, ora abbiamo il testo in audio
Gli autori di questa ricerca si sono proposti di trovare la risposta per ‘quale sarebbe un equivalente audio di modelli generativi testualmente guidati?’
Dopo aver introdotto “Make-A-Video”, un team di scienziati di Meta ha pubblicato “AudioGen”, insieme all’Università di Gerusalemme. Un modello generativo autoregressivo che genera campioni audio basati su input di testo. Opera su rappresentazioni audio discrete apprese; per questo, il team ha curato dieci set di dati che contenevano diversi tipi di annotazioni audio e di testo per risolvere il problema della scarsità di punti dati testo-audio.
Cos’è AudioGen
Gli autori di questa ricerca si sono proposti di trovare la risposta a “quale sarebbe un audio equivalente ai modelli generativi testualmente guidati?” Hanno scoperto che una soluzione a questo problema è uno strumento ad alta fedeltà e controllabile che presenta risultati diversi.
Mentre la generazione di immagini e la generazione di audio hanno molto in comune, quest’ultima presenta alcune sfide uniche. Per cominciare, l’audio è un segnale unidimensionale che offre un minor grado di libertà per differenziare gli oggetti sovrapposti. Inoltre, l’audio del mondo reale ha riverberi a causa dei quali differenziare gli oggetti dall’ambiente circostante diventa molto più difficile. Infine, la disponibilità di dati audio con descrizioni testuali è scarsa, rispetto ai dati accoppiati testo-immagine, rendendo la generazione di composizioni audio invisibili una sfida importante o, come spiegano i ricercatori nel documento, generando un equivalente audio di “equitazione un astronauta nello spazio.’
Attraverso AudioGen, i ricercatori hanno tentato di risolvere il problema della generazione di campioni audio condizionati da didascalie di testo descrittive. Per un determinato prompt, il modello genera tre categorie di contenuto acustico con vari gradi di sfondo/primo piano, durate e posizione relativa nell’asse temporale.
AudioGen è costituito da due fasi principali. Il primo codifica l’audio grezzo in una sequenza discreta di token che utilizza un modello di compressione dell’audio neurale, che viene addestrato in modo end-to-end per ricostruire l’input da una rappresentazione compressa. Tale rappresentazione audio può generare campioni audio ad alta fedeltà pur essendo compatta.
Il secondo stadio utilizza un modello di linguaggio Transformer-decoder autoregressivo che opera su token audio discreti ottenuti dal primo stadio ed è anche condizionato da input testuali. Il testo viene rappresentato utilizzando un modello di codificatore di testo separato che è pre-addestrato su T5 (un corpus di testo di grandi dimensioni). Questo codificatore di testo pre-addestrato consente la generalizzazione ai concetti di testo. Questo è importante nei casi in cui le annotazioni di testo sono limitate nella diversità e nella descrittività.
AudioGen genera campioni per ottenere metriche oggettive e soggettive migliori e crea composizioni audio invisibili dal suono più naturale. Può anche essere esteso alla continuazione dell’audio considerando sia la generazione condizionale che incondizionata.
Il team ha proposto due varianti del modello: una con 285 milioni di parametri e l’altra con 1 miliardo di parametri. La generazione da testo a audio è stata migliorata su due assi: migliorare l’aderenza del testo applicando una guida priva di classificatori sopra il modello del linguaggio audio e migliorare la composizionalità eseguendo il missaggio di testo e audio al volo.
Leggi il documento completo qui .
Età del text-to-qualcosa
Con l’introduzione di DALL.E e, successivamente, DALL.E 2, è nata una nuova tendenza nell’intelligenza artificiale. Molte altre aziende di intelligenza artificiale hanno escogitato le proprie versioni di strumenti di generazione da testo a immagine, la più importante è “Midjourney” , “Diffusione stabile” e “Imagen” di Google. Mentre Midjourney e Stable Diffusion erano open source fin dall’inizio, OpenAI ha recentemente rimosso la lista d’attesa per l’utilizzo di DALL.E. Detto questo, “Imagen” di Google deve ancora essere open source e la società non ha intenzione di farlo considerando le sfide legate all’etica e alla governance.
OpenAI ha aggiunto alcune funzionalità in più a DALL.E come Outpainting. Questa funzione consente a DALL.E di continuare l’immagine oltre i bordi originali aggiungendo elementi visula nello stesso stile utilizzando la descrizione in linguaggio naturale. I ricercatori di Google hanno quindi adottato un nuovo approccio alla sintesi 3D, consentendo agli utenti di generare modelli 3D utilizzando istruzioni di testo. Si chiama DreamFusion.
Poi è arrivata la generazione da testo a video. Meta ha recentemente lanciato “Make-a-Video”, un nuovo sistema di intelligenza artificiale che consente agli utenti di generare clip video di alta qualità utilizzando istruzioni di testo. Sulla scia di questo annuncio, Google ha ora lanciato Imagen Video. I risultati non sono perfetti: contiene artefatti e rumore, ma Google afferma che il suo modello mostra un alto grado di controllabilità e la capacità di generare filmati in una gamma di stili artistici.
Tutto ciò mostra che il campo text-to-X sta crescendo a una velocità sbalorditiva. Tanto che spesso diventa difficile tenere il passo