Perché la PNL senza testo di Meta AI è una svolta?
Se completamente esplorata, la PNL senza testo può essere un miglioramento rispetto ai soliti sistemi come l’elaborazione del linguaggio naturale e il riconoscimento vocale automatico.
 
L’anno scorso, quando Meta AI ha inventato GSLM o Generative Spoken Language Model, era l’unico modello linguistico basato sull’audio senza testo . GSLM è stato in grado di utilizzare segnali audio grezzi direttamente senza alcuna etichetta. La scorsa settimana, Meta AI ha annunciato tre importanti miglioramenti a GSLM che potrebbero aiutare i modelli NLP a catturare espressioni nel parlato come risate, sbadigli o pause per rendere la comunicazione più ricca e ricca di sfumature. I sistemi di intelligenza artificiale prima di questo non erano in grado di acquisire questi dati perché i modelli linguistici tradizionali come GPT-3 , BERT e RoBERTa funzionavano con il testo scritto. 

Meta AI ha preso nota di tre importanti punti di contatto per GSLM nel loro annuncio che includevano: 

Una libreria basata su Pytorch senza testo ora open source su GitHub per gli sviluppatori vocali da costruire sui blocchi di costruzione di GSLM che comprendono un codificatore vocale che converte l’input vocale in unità discrete, un modello linguistico basato su unità e un decoder che converte queste unità tornano al discorso. 

Ancora più importante, GSLM ora è anche in grado di modellare vocalizzazioni emotive non verbali. Il fatto che una frase venga pronunciata con rabbia o felicità dipende dal diverso vocabolario utilizzato, dalle grida, dai grugniti e da altri segnali non verbali come pause o qualità tonale. Questi segnali aiutano a trasmettere l’umore di chi parla come irritabile, annoiato o lunatico. 
GSLM sarà ora in grado di modellare una conversazione più simile a quella umana tra due IA con pause e sovrapposizioni occasionali. Di conseguenza, questi dati possono anche aiutare gli assistenti vocali a comprendere il parlato che contiene sovrapposizioni e interruzioni, pur essendo in grado di distinguere tra feedback positivo e negativo. 
Metodo
La PNL basata su testo non ha la capacità di acquisire il contesto e rappresenta in modo insufficiente questi livelli del testo. È anche un compito faticoso annotare tutte le espressioni emotive in un testo. Questo è il motivo per cui i ricercatori di Meta AI hanno cercato di guardare al problema da una prospettiva diversa. Il team ha modellato contemporaneamente tutti i livelli dall’audio grezzo e ha scoperto che potevano ottenere un rendering audio realistico come risultato. Lo studio e i suoi risultati sono stati raccolti in un documento intitolato “Conversione delle emozioni vocali senza testo mediante rappresentazioni discrete e scomposte”, pubblicato a novembre dello scorso anno.


Una volta che il segnale di ingresso è stato codificato, viene utilizzato un modello da sequenza a sequenza (S2S) per tradurre tra le sequenze che corrispondono ciascuna a un’emozione diversa. Quindi viene prevista la durata e arriva a F0 prima che i segnali vengano inseriti in un vocoder (G). I blocchi di colore rosa nell’illustrazione rappresentano modelli mentre i blocchi di colore verde indicano rappresentazioni.

Conversione dell’emozione vocale
Il modello ha utilizzato una rappresentazione scomposta dell’approccio vocale per sintetizzare il discorso nell’emozione target. Durante l’elaborazione del discorso di input, considera quattro parti: contenuto fonetico, caratteristiche prosodiche, che includono il tono, la velocità di pronuncia, nonché la durata, l’identità di chi parla e l’etichetta dell’emozione. 

Lo studio ha suggerito una tecnica che ha funzionato in questo modo: 

Innanzitutto, estrai l’emozione dalla forma d’onda audio grezza utilizzando un modello di apprendimento autocontrollato . 
Traduci le espressioni non verbali mantenendo il contenuto lessicale (Esempio: quando il discorso divertito viene convertito in assonnato, il modello rimuove la risata e la sostituisce con sbadigli).
Quindi vengono previste le caratteristiche prosodiche dell’emozione target dopo aver esaminato il discorso tradotto. 
Sintetizzare il discorso usando il discorso tradotto, le caratteristiche prosodiche, l’identità del parlante target e l’etichetta del parlante target. 
Conclusione
Lo studio ha trovato una nuova funzione di mappatura per tradurre tra unità vocali discrete da un’emozione all’altra. I risultati dello studio hanno concluso che il metodo utilizzato ha mostrato risultati che hanno superato le linee di base con un ampio margine. Il sistema è stato infine in grado di modellare con successo la comunicazione espressiva non verbale e di fornire campioni di discorso espressivo di alta qualità. 

La ricerca contribuisce alla conversione e al miglioramento delle emozioni del parlato mentre costruisce GSLM migliori. Il team intende continuare il proprio lavoro e costruire un sistema end-to-end per modellare congiuntamente unità di contenuto insieme a funzionalità prosodiche e utilizzare set di dati non paralleli. 

Il modello utilizzava contenuti, segnali non verbali e tempi in modo olistico e naturale. Utilizzava due trasformatori identici , uno per ogni flusso di unità foniche, che venivano derivati ​​automaticamente come in GSLM. Una volta che il modello viene richiesto da 10 secondi di conversazione effettiva, prosegue con la propria versione. Il modello è in grado di avere naturalmente durate dei turni, lacune di distribuzione e sovrapposizione del discorso. Tutti questi possono segnalare accordo, disaccordo o ancora più entusiasmo sull’argomento o la volontà di assumere il controllo della conversazione. 


L’uso più ampio della PNL senza testo ridurrà la necessità di etichette di testo che utilizzano molte più risorse per il doppiaggio o la traduzione vocale. Inoltre, i modelli linguistici normalmente perdono anche questi dati preziosi. Se completamente esplorato, la PNL senza testo può essere un miglioramento rispetto ai soliti sistemi come l’elaborazione del linguaggio naturale e il riconoscimento vocale automatico . 

Di ihal