I ricercatori in Germania hanno utilizzato l’apprendimento automatico per creare un sistema di analisi audio destinato principalmente a fungere da macchina della verità basata sull’intelligenza artificiale per i clienti nelle comunicazioni audio con call center e personale di supporto.

Il sistema utilizza un set di dati appositamente creato di registrazioni audio da 40 studenti e insegnanti durante i dibattiti su argomenti controversi, tra cui la moralità della pena di morte e le tasse universitarie. Il modello è stato addestrato su un’architettura che utilizza le reti neurali convoluzionali (CNN) e la memoria a lungo termine a breve termine ( LSTM ) e ha raggiunto un tasso di precisione riportato del 98%.

Sebbene l’intento dichiarato del lavoro citi le comunicazioni dei clienti, i ricercatori ammettono che funziona efficacemente come rivelatore di bugie di uso generale:

‘I risultati sono applicabili a un’ampia gamma di processi di servizio e particolarmente utili per tutte le interazioni con i clienti che avvengono tramite telefono. L’algoritmo presentato può essere applicato in qualsiasi situazione in cui sia utile per l’agente sapere se un cliente sta parlando con la sua convinzione.

‘Ciò potrebbe, ad esempio, portare a una riduzione dei reclami assicurativi dubbi o alle dichiarazioni non veritiere nei colloqui di lavoro. Ciò non solo ridurrebbe le perdite operative per le società di servizi, ma incoraggerebbe anche i clienti a essere più veritieri.’

Generazione di set di dati
In assenza di un adeguato set di dati pubblicamente disponibile in lingua tedesca, i ricercatori della Neu-Ulm University of Applied Sciences (HNU) hanno creato il proprio materiale di partenza. I volantini sono stati affissi all’università e nelle scuole locali, con 40 volontari selezionati con un’età minima di 16 anni. I volontari sono stati pagati con un buono Amazon di 10 euro.

Le sessioni sono state condotte su un modello di club di dibattito progettato per polarizzare l’opinione e suscitare forti risposte su argomenti incendiari, modellando efficacemente lo stress che può verificarsi nelle conversazioni telefoniche problematiche con i clienti.

Gli argomenti sui quali i volontari hanno dovuto parlare liberamente per tre minuti in pubblico sono stati:

– La pena di morte e le esecuzioni pubbliche dovrebbero essere reintrodotte in Germania?
– Le tasse universitarie a copertura dei costi dovrebbero essere addebitate in Germania?
– L’uso di droghe pesanti come eroina e metanfetamine dovrebbe essere legalizzato in Germania?
– Le catene di ristoranti che servono fast food malsani, come McDonald’s o Burger King, dovrebbero essere bandite in Germania?

Pre-elaborazione
Il progetto ha privilegiato l’analisi delle caratteristiche del parlato acustico in un approccio di riconoscimento vocale automatico (ASR) rispetto a un approccio di PNL (dove il discorso viene analizzato a livello linguistico e la “temperatura” del discorso è dedotta direttamente dall’uso del linguaggio).

I campioni estratti pre-elaborati sono stati analizzati inizialmente tramite i coefficienti cepstrali a frequenza di Mel ( MFCC ), un metodo affidabile e più vecchio ancora molto popolare nell’analisi del parlato. Poiché il metodo è stato proposto per la prima volta nel 1980, è particolarmente frugale con le risorse di calcolo in termini di riconoscimento di schemi ricorrenti nel parlato ed è resistente a vari livelli di qualità di acquisizione audio. Poiché le sessioni sono state svolte su piattaforme VOIP in condizioni di blocco nel dicembre del 2020, era importante disporre di un quadro di registrazione che potesse tenere conto dell’audio di scarsa qualità quando necessario.

È interessante notare che le due suddette limitazioni tecniche (risorse limitate della CPU nei primi anni ’80 e le eccentricità della connettività VOIP in un contesto di rete congestionato) si combinano qui per creare quello che è effettivamente un modello “tecnicamente scarso” che è (apparentemente) insolitamente robusto in assenza di condizioni di lavoro ideali e risorse di alto livello, imitando l’arena di destinazione per l’algoritmo risultante.

Successivamente un algoritmo Fast Fourier Transform ( FFT ) è stato applicato ai segmenti audio per fornire un profilo spettrale di ciascun “frame audio”, prima della mappatura finale alla scala Mel .

Formazione, risultati e limiti
Durante l’addestramento, i vettori di feature estratti vengono passati a un livello di rete convoluzionale distribuito nel tempo, appiattiti e quindi passati a un livello LSTM.

 
Infine, tutti i neuroni sono collegati tra loro per generare una previsione binaria per stabilire se l’oratore sta dicendo cose che crede siano vere o meno.

Nei test dopo l’addestramento, il sistema ha raggiunto un livello di precisione fino al 98,91% in termini di discernimento dell’intento (dove il contenuto parlato potrebbe non riflettere l’intento). I ricercatori ritengono che il lavoro dimostri empiricamente l’identificazione delle convinzioni basata su modelli vocali e che ciò possa essere ottenuto senza la decostruzione del linguaggio in stile PNL.

In termini di limitazioni, i ricercatori ammettono che il campione di prova è piccolo. Sebbene il documento non lo dichiari esplicitamente, i dati dei test a basso volume possono ridurre l’applicabilità successiva nel caso in cui le presunzioni, le caratteristiche architettoniche e il processo di formazione generale siano troppo adatti ai dati. Il documento rileva che sei degli otto modelli costruiti nel corso del progetto sono stati sovra-adattati ad un certo punto del processo di apprendimento e che c’è ulteriore lavoro da fare per generalizzare l’applicabilità dei parametri impostati per il modello.

Inoltre, la ricerca di questa natura deve tenere conto delle caratteristiche nazionali e il documento rileva che i soggetti tedeschi coinvolti nella generazione dei dati possono avere modelli di comunicazione che non sono direttamente replicabili tra le culture – una situazione che probabilmente si presenterebbe in qualsiasi studio di questo tipo in qualsiasi nazione.

Di ihal