La conferenza annuale dell’International Speech Communication Association (INTERSPEECH 2023) si sta svolgendo a Dublino dal 20 al 24 agosto e Google sta svolgendo un ruolo significativo come uno dei principali contributori a questo evento. L’elaborazione del linguaggio naturale (NLP) sta diventando sempre più centrale nella comunicazione e nella comprensione umana. Dai chatbot come ChatGPT, che interagiscono con gli utenti, alla comprensione approfondita dei complessi dati medici per diagnostiche precise, l’influenza del NLP è evidente in tutti gli ambiti.

I ricercatori di Google presenteranno oltre 24 documenti di ricerca alla 24a edizione della conferenza. Ecco un riepilogo dei contributi più interessanti provenienti dal colosso tecnologico:

  1. DeePMOS: Valutazione Profonda della Qualità del Discorso Il documento introduce DeePMOS, un approccio basato su reti neurali profonde per stimare la qualità dei segnali vocali. DeePMOS si distingue dai metodi tradizionali poiché fornisce una distribuzione dei punteggi medi di opinione (MOS) insieme alla loro media e varianza. L’approccio si avvale di un mix di tecniche, tra cui l’apprendimento con massima verosimiglianza e l’utilizzo di configurazioni studente-insegnante, per affrontare dati limitati e rumorosi provenienti da ascoltatori umani. DeePMOS dimostra risultati paragonabili ai metodi esistenti che offrono solo stime puntuali.
  2. Miglioramento dell’Apprendimento di Trasferimento dei Modelli Vocali tramite Fusione delle Caratteristiche La ricerca esamina l’adattamento di modelli vocali di base a specifici compiti di riconoscimento vocale. Vengono proposti metodi efficienti di messa a punto e un approccio di fusione delle caratteristiche per migliorare il trasferimento di apprendimento. Questo approccio riduce i parametri e l’uso della memoria computazionale senza compromettere la qualità delle prestazioni.
  3. LanSER: Riconoscimento delle Emozioni Vocali con Supporto di Modelli Linguistici Il documento presenta LanSER, un metodo che sfrutta modelli linguistici di grandi dimensioni per migliorare il riconoscimento delle emozioni vocali. Questo approccio si basa sull’apprendimento debolmente supervisionato e sull’uso di modelli preaddestrati per dedurre etichette emotive da dati non etichettati. LanSER affronta la sfida dei costosi dati etichettati nel miglioramento delle prestazioni nei riconoscimenti delle emozioni vocali.
  4. MD3: Dataset Multidialettale di Dialoghi La ricerca introduce il dataset MD3, contenente conversazioni conversazionali in diverse varianti dialettali dell’inglese, inclusi quelli dall’India, dalla Nigeria e dagli Stati Uniti. Questo dataset unico fornisce oltre 20 ore di audio e più di 200.000 token trascritti, consentendo il confronto tra dialetti senza limitazioni funzionali. MD3 offre preziose informazioni sulla sintassi e sull’uso dei marcatori del discorso tra le diverse varianti.
  5. Miglioramento del Riconoscimento di Identificatori Personali nel Discorso tramite Iniezione di Testo La ricerca affronta il problema del riconoscimento accurato di categorie specifiche, come nomi e date, nel riconoscimento vocale automatico (ASR). Gli autori propongono l’utilizzo dell’iniezione di testo per migliorare l’accuratezza dell’ASR nel riconoscimento di informazioni personali, come nomi e date, senza compromettere la privacy.
  6. Trascrizione Fonetica Automatica Universale nell’Alfabeto Fonetico Internazionale Il documento presenta un modello avanzato per la trascrizione fonetica automatica nell’alfabeto fonetico internazionale (IPA) per qualsiasi lingua. Questo modello offre risultati paragonabili a quelli ottenuti da annotatori umani nel processo di trascrizione IPA, semplificando la documentazione linguistica, specialmente per lingue a rischio di estinzione.

La ricerca di Google in questi ambiti dimostra come il campo dell’elaborazione del linguaggio naturale stia avanzando in modo significativo e stia contribuendo a soluzioni innovative in diversi settori.

Di Fantasy