Quando pensiamo all’intelligenza artificiale e al riconoscimento vocale , in genere pensiamo a uno dei due scenari non ottimali. Il primo è il tuo Amazon Alexa seduto a casa, che potrebbe intercettare le tue conversazioni quotidiane e alimentare algoritmi pubblicitari in modo da acquistare il giusto tipo di tosaerba. Il secondo scenario è un software di trascrizione goffo, che sottotitolerà automaticamente i nostri video e programmi TV, spesso con effetti imprecisi (e divertenti).

In realtà, tuttavia, in questo momento stanno accadendo alcuni sviluppi profondamente entusiasmanti nello spazio del riconoscimento vocale AI. I progressi nell’IA significano che ora è possibile creare programmi e modelli complessi in grado di analizzare e valutare il parlato. Ora possono anche farlo attraverso una serie di criteri; dall’accuratezza grammaticale al vocabolario, dalla pronuncia alla chiarezza.

 
L’impatto in evoluzione dell’analisi dei grafi
Questa capacità di assegnare un punteggio al parlato in modo efficace ha un potere di trasformazione negli spazi di apprendimento delle lingue e di istruzione . Immagina un mondo in cui non è necessario un insegnante umano per correggere una pronuncia scadente. Immagina se ciò non fosse solo possibile, ma fosse possibile in tempo reale. I costi risparmiati da questo tipo di sviluppo tecnologico sarebbero immensi.

Osservando i sistemi più recenti, sembra che con la tecnologia e i modelli di intelligenza artificiale corretti, qualsiasi studente di lingue possa teoricamente ricevere feedback in tempo reale su come sta parlando, se la sua pronuncia inglese è corretta e come o dove può essere migliorata. Questo è simile, ma non uguale, ad altre applicazioni vocali AI , come il riconoscimento vocale automatico in cui l’IA riceve un segnale audio ed emette il testo corrispondente.

 

Un sistema ottimale per questo tipo di modello di IA richiede i seguenti cinque componenti chiave:
Preelaborazione audio che gestisce segnali audio grezzi provenienti da piattaforme diverse
Una rete neurale artificiale (ANN) che riceve un segnale audio elaborato e produce rappresentazioni integrate del parlato
Un livello di post-elaborazione che costruisce una valutazione leggibile dall’uomo
Un livello di composizione dell’applicazione che associa la valutazione alle esigenze delle funzionalità del prodotto 
Un sistema proprietario che monitora la qualità e le prestazioni del sistema produttivo
Affinché un sistema fornisca feedback in tempo reale, è probabilmente consigliabile una latenza end-to-end inferiore a un secondo. Ciò significa che qualsiasi rete neurale artificiale di base ha solo pochi millisecondi per rispondere, presentando di per sé una sfida perché si tratta di un modello con centinaia di milioni di parametri, che elabora un segnale audio arbitrariamente lungo.

 
Un modo per contrastare questo è usare i fonemi (unità di suono distinte in una lingua che distinguono una parola dall’altra), come output previsto, piuttosto che grafemi o unità linguistiche più grandi. L’inglese ha 44 fonemi: composti da 20 vocali e 24 consonanti. 

Ciò consente a un sistema di intelligenza artificiale di ottenere punteggi e fornire feedback su quanto sono buoni i suoni di un utente o quanto sono vicini a suoni errati. Ad esempio, quando uno studente dice “compagno”, un sistema può dare punteggi, che vanno da 0 a 100, sui quattro fonemi corrispondenti: /f/, /ɛ/, /l/, /əʊ/. Sulla base di questi, la piattaforma può segnare le due sillabe: /fɛ/ e /ləʊ/. Allo stesso modo, potrebbe segnare la parola, quindi l’intera frase. Nel caso di pronuncia imperfetta, è in grado di corrispondere a ciò che suona di più, ad esempio “il tuo /ɛ/ suonava come /a/”.

Questi tipi di sistemi stanno diventando sempre più popolari. Guardando allo spazio dell’intelligenza artificiale per l’apprendimento delle lingue, le aziende sono in grado di sfruttare modelli pre-formati e investire molto nei processi di perfezionamento. Probabilmente, la chiave del processo di messa a punto e della selezione del modello risiede in: 1) set di dati curati in modo univoco, 2) utilizzando la conoscenza interna dell’apprendimento dell’inglese parlato e 3) capacità ingegneristiche e profonda conoscenza dei punti di forza e dei limiti dei modelli. Combinando esperienza vissuta, mondo accademico e competenza tecnica, è possibile sviluppare una tecnologia di intelligenza artificiale che fornisce agli utenti un feedback immediato, ogni volta che lo desiderano, su come parlano inglese. 

In termini di implementazione e produzione, i servizi standard su GCP (Google Cloud Platform) possono aiutare a ridurre al minimo i costi operativi, garantendo al contempo scalabilità e stabilità. Per contrastare la latenza end-to-end, la messa a punto dell’infrastruttura tecnica e la selezione del modello consentono a questo tipo di tecnologie di fornire agli studenti un feedback in tempo reale quando parlano. 

 
Per ovvie ragioni, questi tipi di sviluppi tecnologici potrebbero avere un potere di trasformazione nello spazio dell’istruzione. Come per molti altri verticali, uno dei principali vantaggi del software AI senza interruzioni è la riduzione dei costi. Nell’era moderna del lavoro a distanza e ibrido, la conoscenza della lingua inglese è l’ostacolo principale all’ottenimento di un lavoro con un’azienda internazionale, non in una posizione geografica. Se il software può aiutare qualcuno a parlare correntemente l’inglese a un ritmo molto più ragionevole rispetto alle lezioni da uomo a uomo, allora apre improvvisamente una porta nella forza lavoro globale. Non è esagerato dire che l’IA per il riconoscimento vocale, e il potenziale di apprendimento delle lingue che sblocca, potrebbero essere il livellatore definitivo per il mercato internazionale dei talenti. Ora tocca a noi costruirlo.

Di ihal