In un ambiente affollato e rumoroso, ti è mai capitato di voler eliminare tutto il rumore di fondo e concentrarti solo sulla persona che stai cercando di ascoltare? Le cuffie con cancellazione del rumore hanno fatto progressi notevoli nel creare un’esperienza uditiva più chiara, ma ancora non sono perfette nel filtrare i suoni specifici provenienti dall’ambiente circostante. E se le tue cuffie potessero essere programmate per rilevare e amplificare la voce di una persona specifica, anche mentre ti muovi in una stanza piena di altre conversazioni?
È qui che entra in gioco il Target Speech Hearing (TSH), un sistema innovativo di intelligenza artificiale sviluppato dai ricercatori dell’Università di Washington.
Per utilizzare il TSH, basta indossare cuffie speciali e guardare per alcuni secondi la persona di cui si vuole ascoltare la voce. Questo breve “registro” consente al sistema di imparare i modelli vocali unici di quella persona.
Ecco come funziona:
1) L’utente tocca un pulsante mentre guarda l’oratore desiderato per 3-5 secondi.
2) I microfoni sulle cuffie catturano contemporaneamente le onde sonore della voce di quell’oratore (con una precisione di 16 gradi).
3) Le cuffie inviano il segnale audio a un computer integrato.
4) Il software di apprendimento automatico analizza la voce e crea un modello delle caratteristiche vocali uniche di quell’oratore.
5) Il sistema di intelligenza artificiale usa questo modello per isolare e amplificare la voce dell’oratore in tempo reale, anche mentre ti muovi in un ambiente rumoroso.
Più a lungo parla l’oratore, più dati il sistema riceve per migliorare la sua precisione. Questo approccio all'”udito selettivo” offre opportunità per migliorare la comunicazione e l’accessibilità in ambienti difficili.
Per testare il TSH, i ricercatori hanno condotto uno studio con 21 partecipanti. Ogni persona indossava le cuffie TSH e ascoltava un altoparlante in un ambiente rumoroso. I risultati sono stati positivi: in media, gli utenti hanno valutato la chiarezza della voce dell’oratore quasi due volte più alta rispetto al feed audio non filtrato.
Questa innovazione si basa sul lavoro precedente del team sull'”udito semantico”, che permetteva di filtrare l’ambiente uditivo in base a suoni specifici. Il TSH porta questo concetto un passo avanti permettendo l’amplificazione selettiva della voce di un individuo specifico.
Le implicazioni sono significative, dal miglioramento delle conversazioni personali in ambienti rumorosi all’accessibilità per le persone con problemi di udito. Man mano che la tecnologia progredisce, potrebbe cambiare radicalmente il nostro modo di sperimentare e interagire con il mondo uditivo.
Anche se il TSH rappresenta un grande passo avanti, ha alcune limitazioni:
- Può concentrarsi su un solo oratore alla volta.
- Potrebbe avere difficoltà con voci simili provenienti dalla stessa direzione.
- Se la qualità audio non è soddisfacente, l’utente deve registrare
nuovamente manualmente l’oratore.
Nonostante queste limitazioni, il team sta lavorando per migliorare ed espandere il TSH, con l’obiettivo di miniaturizzare la tecnologia per l’integrazione in prodotti di consumo come auricolari e apparecchi acustici.
Le potenziali applicazioni sono vaste, dal miglioramento della produttività in ufficio alla comunicazione più chiara per i primi soccorritori. Il futuro dell’udito selettivo sembra promettente e il TSH sarà parte integrante di esso.