Il futuro del punteggio vocale
In tutto il mondo, il numero di studenti di lingua inglese continua ad aumentare. Le istituzioni educative e i datori di lavoro devono essere in grado di valutare la conoscenza della lingua inglese degli studenti di lingue, in particolare la loro capacità di parlare, poiché la lingua parlata rimane tra le abilità linguistiche più essenziali. La sfida, sia per gli sviluppatori di valutazione che per gli utenti finali, è trovare un modo per farlo che sia accurato, veloce e finanziariamente fattibile. Come parte di questa sfida, il punteggio di queste valutazioni viene fornito con una propria serie di fattori, soprattutto se si considerano le diverse aree (discorso, scrittura, ecc.) Su cui si sta testando. Poiché la domanda di competenze in lingua inglese in tutto il mondo dovrebbe solo aumentare, come dovrebbe essere il futuro del punteggio vocale per soddisfare queste esigenze?

La risposta a questa domanda, in parte, si trova nell’evoluzione del punteggio vocale finora. La valutazione delle risposte vocali costruite è stata storicamente effettuata utilizzando i rater umani. Questo processo, tuttavia, tende ad essere costoso e lento e presenta ulteriori sfide, tra cui la scalabilità e varie carenze degli stessi rater umani (ad esempio, soggettività dei rater o pregiudizi). Come discusso nel nostro libro Valutazione orale automatizzata: utilizzo delle tecnologie linguistiche per valutare il discorso spontaneo, al fine di affrontare queste sfide, un numero crescente di valutazioni si avvale ora della tecnologia di punteggio vocale automatico come unica fonte di punteggio o in combinazione con i valutatori umani. Prima di implementare motori di punteggio automatizzati, tuttavia, le loro prestazioni devono essere attentamente valutate, in particolare in relazione all’affidabilità del punteggio, alla validità (il sistema misura ciò che dovrebbe?) E alla correttezza (vale a dire, il sistema non dovrebbe introdurre distorsioni relative a sottogruppi di popolazione come genere o lingua madre).

Dal 2006, SpeechRater®, il motore di valutazione vocale vocale di ETS, è stato reso operativo nella valutazione TOEFL® Practice Online (TPO) (utilizzata da potenziali acquirenti di test per preparare la valutazione iEBT® TOEFL) e dal 2019 è stato utilizzato anche SpeechRater , insieme ai valutatori umani, per aver valutato la sezione parlante della valutazione TOEFL iBT®. Il motore valuta una vasta gamma di competenze linguistiche per il parlato spontaneo non madrelingua, tra cui pronuncia e fluidità, gamma di vocaboli e grammatica e capacità di parlare di livello superiore legate alla coerenza e alla progressione delle idee. Queste funzionalità sono calcolate utilizzando algoritmi di elaborazione del linguaggio naturale (NLP) e di elaborazione vocale. Un modello statistico viene quindi applicato a queste funzionalità al fine di assegnare un punteggio finale alla risposta di chi effettua il test.

Mentre questo modello è addestrato sui dati precedentemente osservati segnati da valutatori umani, è anche rivisto da esperti del contenuto per massimizzarne la validità. Se una risposta risulta non classificabile a causa della qualità audio o di altri problemi, il motore può contrassegnarla per un’ulteriore revisione per evitare di generare un punteggio potenzialmente inaffidabile o non valido. I valutatori umani sono sempre coinvolti nella valutazione delle risposte vocali nella valutazione orale TOEFL iBT ad alto rischio.

Dato che i raters umani e SpeechRater sono attualmente usati insieme per valutare le risposte dei partecipanti ai test nelle valutazioni di alto livello, entrambi svolgono un ruolo in quello che può essere il futuro del punteggio della conoscenza della lingua inglese. I rater umani hanno la capacità di comprendere in profondità il contenuto e l’organizzazione del discorso di una risposta orale. Al contrario, i motori di valutazione vocale automatica possono misurare con maggiore precisione alcuni aspetti dettagliati del parlato, come la fluidità o la pronuncia, mostrano una coerenza perfetta nel tempo, possono ridurre i tempi e i costi complessivi del punteggio e sono più facilmente scalabili per supportare grandi volumi di test. Quando si combinano raters umani e sistemi di punteggio vocale automatico, il sistema risultante può beneficiare dei punti di forza di ogni approccio di punteggio.

Al fine di evolvere continuamente i motori automatici di valutazione del parlato, la ricerca e lo sviluppo devono concentrarsi, tra gli altri, sui seguenti aspetti:

Creazione di sistemi di riconoscimento vocale automatico con maggiore accuratezza: poiché la maggior parte delle funzionalità di un sistema di punteggio vocale si basa direttamente o indirettamente su questo componente del sistema che converte il discorso del partecipante al test in una trascrizione di testo, il riconoscimento automatico del parlato altamente accurato è essenziale per ottenere funzioni valide;
Esplorazione di nuovi modi per combinare punteggi umani e automatizzati: al fine di sfruttare appieno i rispettivi punti di forza dei punteggi umani dei rater e dei punteggi dei motori automatizzati, è necessario esplorare altri modi per combinare queste prove;
Contabilizzazione delle anomalie nelle risposte, sia tecniche che comportamentali: sono necessari filtri ad alte prestazioni in grado di contrassegnare tali risposte ed escluderle dal punteggio automatizzato per contribuire a garantire la validità e l’affidabilità dei punteggi di valutazione risultanti;
Valutazione del discorso spontaneo o colloquiale che si verifica più spesso nella vita di tutti i giorni: mentre il punteggio automatizzato di tale discorso interattivo è un obiettivo importante, questi elementi presentano numerose sfide di punteggio, tra cui valutazione complessiva e punteggio;
Esplorazione delle tecnologie di apprendimento profondo per il punteggio vocale automatizzato: questo paradigma relativamente recente all’interno dell’apprendimento automatico ha prodotto notevoli aumenti delle prestazioni su molte attività di intelligenza artificiale (AI) negli ultimi anni (ad esempio, riconoscimento vocale automatico, riconoscimento di immagini), e quindi è probabile che automatizzato Anche il punteggio può trarre vantaggio dall’uso di questa tecnologia. Tuttavia, poiché la maggior parte di questi sistemi può essere considerata un approccio “black-box”, l’attenzione all’interpretazione del punteggio risultante sarà importante per mantenere un certo livello di trasparenza.
Per soddisfare una crescente e mutevole popolazione di studenti di lingua inglese, i sistemi di punteggio vocale di prossima generazione devono espandere l’automazione e la gamma di ciò che sono in grado di misurare, consentendo coerenza e scalabilità. Ciò non significa che l’elemento umano verrà rimosso, soprattutto per le valutazioni ad alto rischio. I valutatori umani rimarranno probabilmente essenziali per catturare alcuni aspetti del discorso che rimarranno difficili da valutare con precisione dai sistemi di punteggio automatizzati per un po ‘di tempo, compresi gli aspetti dettagliati del contenuto e del discorso parlato. L’uso di sistemi automatizzati di valutazione vocale del parlato per le valutazioni consequenziali comporta anche il rischio di non identificare risposte problematiche da parte dei partecipanti al test, ad esempio risposte off-topic o plagiate e, di conseguenza, possono ridurre la validità e l’affidabilità.

Scritto da: Keelan Evanini, direttore della ricerca vocale, ETS e Klaus Zechner, dirigente senior ricercatore, discorso, ETS

ETS collabora con istituti di istruzione, aziende e governi per condurre ricerche e sviluppare programmi di valutazione che forniscono informazioni significative su cui poter contare per valutare persone e programmi. ETS sviluppa, amministra e realizza oltre 50 milioni di test ogni anno in oltre 180 paesi in oltre 9.000 sedi in tutto il mondo. Progettiamo le nostre valutazioni con approfondimenti leader del settore, ricerca rigorosa e un impegno senza compromessi per la qualità in modo da poter aiutare l’istruzione e le comunità sul posto di lavoro a prendere decisioni informate. Per saperne di più visita ETS.

Di ihal