Cos’è TRILLsson di Google?
Il modello Conformer parametro 600M senza molta attenzione è chiamato Conformer Applied to Paralinguistics (CAP).
 
Deepfake, chatbot, assistenti robot, modelli di trasformatori: questi sono alcuni dei principali sviluppi del ML che hanno plasmato l’ultimo decennio, ma l’IA non è andata oltre modelli come GPT-3. L’AGI è ancora un sogno. 

Come rafforzeresti un matrimonio?

GPT-3: Mi assicurerei di avere sempre ragione io.

Oggi, la maggior parte dei modelli di apprendimento automatico fatica ancora a comprendere gli aspetti paralinguistici. Ad esempio, non riescono a cogliere appieno il sarcasmo, il contesto culturale, il tono, le emozioni o anche se l’oratore indossa una maschera. Un altro problema ricorrente è che questi risultati all’avanguardia sono più popolari da modelli ultra-grandi addestrati su dati privati. Ciò crea una disconnessione dal comodo utilizzo pubblico. 

Modello paralinguistico pubblicamente disponibile
Nel documento intitolato ” Universal Paralinguistic Speech Representations Using Self-Supervised Conformers “, Google ha introdotto CAP12. Il CAP12 è il 12° livello di un modello di parametri 600M addestrato sul set di dati di addestramento YT-U utilizzando l’auto-supervisione. Il modello supera la maggior parte del benchmark paralinguistico, a volte con ampi margini. In un altro articolo, “ TRILLsson: Distilled Universal Paralinguistic Speech Representations”, la grande azienda tecnologica ha presentato i modelli TRILLsson come piccoli, performanti e pubblicamente disponibili. Il team afferma di aver ridotto le dimensioni di CAP12 di 6x-100x mantenendo le prestazioni. “Per creare TRILLsson, applichiamo la distillazione della conoscenza su blocchi audio di dimensioni adeguate e utilizziamo diversi tipi di architettura per addestrare reti più piccole e veloci che sono sufficientemente piccole per funzionare su dispositivi mobili”, hanno spiegato .

Formazione
Il modello CAP12 autocontrollato è stato addestrato sul set di dati di addestramento YT-U. Il set di dati YT-U è stato costruito su una raccolta casuale di video di YouTube e consiste in oltre 900 milioni di ore di audio su argomenti casuali con impostazioni di sfondo e attributi acustici degli altoparlanti. Il set di dati non è etichettato e viene utilizzato per addestrare autonomamente i modelli  Conformer .

 
Il team ha ulteriormente modificato un paradigma di formazione auto-supervisionato Wav2Vec 2.0, un modello all’avanguardia per il riconoscimento vocale automatico in grado di risolvere attività utilizzando dati grezzi senza etichette. È stato integrato con modelli Conformer ultra-grandi e ha ampliato il set di dati YT-U fino a dimensioni del modello enormi di parametri 600M, 1B e 8B. Questo ridimensionamento era accessibile poiché l’autoformazione non richiede etichette. 

Il modello Conformer parametro 600M senza molta attenzione è chiamato Conformer Applied to Paralinguistics (CAP).

CAP12 eccelle nel benchmark NOSS per compiti paralinguistici
Il modello CAP12 supera le precedenti rappresentazioni di sei modelli ultra-grandi con margini significativi, afferma il team. Il benchmark NOSS (NOn-Semantic Speech) è stato utilizzato per misurare la qualità di 300 rappresentazioni del parlato paralinguistico. Il benchmark NOSS contiene compiti linguistici paralinguistici ben studiati. Confronta le rappresentazioni del parlato, inclusi diversi set di dati, e confronta attività come il riconoscimento delle emozioni vocali, l’identificazione del linguaggio e l’identificazione del parlante. Il benchmark è stato scelto in base alla sua valutazione delle caratteristiche del parlato nell’ordine di 1 secondo o più (oltre le caratteristiche lessicali). È stato ulteriormente ampliato con un’attività di indossare una maschera, un’attività di rilevamento del volto, il rilevamento del livello di disartria dall’attività del progetto Euphonia e un’attività di riconoscimento delle emozioni vocali. 

Il team ha dimostrato l’utilità di CAP12 (rispetto alle precedenti rappresentazioni) su questo benchmark ampliato. Il team ha scoperto modelli lineari semplici su rappresentazioni CAP12 mediate nel tempo per superare i modelli complessi e specifici per attività su cinque su otto attività paralinguistiche. È anche eccezionalmente bravo nei compiti di riconoscimento delle emozioni. 

TRILLsson di Google
TRILLsson è una versione di CAP12 disponibile pubblicamente sul dispositivo. Il team ha sfruttato la distillazione della conoscenza per addestrare architetture più piccole, più veloci e ottimizzate per i dispositivi mobili. EfficientNet, Audio Spectrogram Transformer e ResNet sono stati utilizzati nella ricerca, coprendo ingressi di lunghezza fissa e arbitraria. EfficientNet fa parte di una ricerca di architettura neurale su modelli di visione che identificano strutture di modelli performanti ed efficienti. I modelli AST sono trasformatori adattati agli ingressi audio. ResNet è un’architettura standard che mostra le prestazioni tra i modelli.

Nonostante abbiano una dimensione dell’1%-15% della PAC e siano stati formati solo sul 6% dei dati, hanno ottenuto risultati in media del 90-96%. Il team ha anche identificato diversi tipi di architettura per prestazioni migliori a diverse dimensioni; ad esempio, i modelli ResNet eccellevano nella fascia bassa, EfficientNet nella fascia media e i modelli AST nella fascia più ampia.

Le tecniche di distillazione della conoscenza utilizzate erano l’abbinamento globale e l’abbinamento locale. Questo è stato fatto per abbinare uno studente con un input di dimensioni fisse all’output di un insegnante con un input di dimensioni variabili. La corrispondenza globale genera incorporamenti CAP12 per un’intera clip audio e produce target di distillazione. Questo è seguito da uno studente che deve abbinare il target da un piccolo segmento audio. La corrispondenza locale richiede che la rete dello studente corrisponda all’incorporamento medio di CAP12 sulla porzione più piccola dell’audio che lo studente vede. La ricerca dichiarata ha utilizzato la corrispondenza locale.


In conclusione
L’informazione paralinguistica è bimodale in un modo inaspettato. Il team ha notato che le rappresentazioni intermedie aumentano gradualmente nelle informazioni paralinguistiche, solo diminuendo e aumentando di nuovo. Il modello alla fine perde queste informazioni verso il livello di output per il modello CAP. “Sorprendentemente, questo modello si vede anche quando si esplorano le rappresentazioni intermedie di reti addestrate su immagini retiniche”, ha osservato il team.

Tali modelli vocali paralinguistici più piccoli e veloci aprono possibilità di riconoscimento vocale, produzione di sintesi vocale e possibilità di interpretazione delle intenzioni dell’utente.

Di ihal