I ricercatori della Cornell University hanno sviluppato un’interfaccia di riconoscimento vocale silenziosa chiamata EchoSpeech. Questa interfaccia utilizza il rilevamento acustico e l’intelligenza artificiale per riconoscere fino a 31 comandi non vocali basati sui movimenti delle labbra e della bocca. EchoSpeech è indossabile e può essere utilizzata su uno smartphone. Inoltre, richiede solo pochi minuti di dati di addestramento dell’utente per il riconoscimento dei comandi.
L’obiettivo principale di EchoSpeech è quello di fornire un’opzione di input vocale per le persone che non sono in grado di vocalizzare il suono, ad esempio per restituire ai pazienti la loro voce. Tuttavia, questa tecnologia può anche essere utilizzata per comunicare in ambienti in cui parlare è scomodo o inappropriato, come ristoranti rumorosi o biblioteche silenziose. Inoltre, EchoSpeech può essere abbinata a uno stilo e utilizzata con software di progettazione come CAD, riducendo notevolmente la necessità di tastiera e mouse.
Gli occhiali EchoSpeech funzionano come un sistema sonar indossabile basato sull’intelligenza artificiale, inviando e ricevendo onde sonore attraverso il viso e rilevando i movimenti della bocca. Un algoritmo di deep learning analizza questi profili di eco in tempo reale con una precisione di circa il 95%. A differenza di altre tecnologie di riconoscimento vocale silenzioso, EchoSpeech non richiede l’uso di fotocamere indossabili e i dati audio possono essere trasmessi a uno smartphone tramite Bluetooth in tempo reale, garantendo la privacy dell’utente.
EchoSpeech è stato sviluppato dallo Smart Computer Interfaces for Future Interactions (SciFi) Lab della Cornell ed è stato presentato alla Association for Computing Machinery Conference on Human Factors in Computing Systems (CHI) ad Amburgo, in Germania.
Il potenziale di EchoSpeech è molto promettente, in quanto può aprire nuove possibilità per le persone con disabilità o per coloro che necessitano di un’alternativa al riconoscimento vocale tradizionale. Inoltre, la tecnologia può anche migliorare la produttività e la comodità nelle attività quotidiane.
Cheng Zhang, assistente professore di scienze dell’informazione e direttore dello SciFi Lab della Cornell, ha affermato che EchoSpeech è il primo passo verso l’utilizzo del sonar come modalità di input interattiva. Inoltre, la tecnologia può essere utilizzata in numerosi contesti, come l’industria manifatturiera, la produzione, la realtà virtuale e la realtà aumentata.
Il team di ricerca sta attualmente lavorando per migliorare la precisione di EchoSpeech e per aumentare il numero di comandi non vocali riconosciuti. Inoltre, gli sviluppatori stanno cercando di rendere l’interfaccia di riconoscimento vocale silenziosa più facile da usare per gli utenti e stanno cercando di incorporare la tecnologia in una vasta gamma di dispositivi portatili, come gli smartwatch.
In sintesi, EchoSpeech rappresenta un’importante innovazione nel campo del riconoscimento vocale silenzioso, poiché utilizza il sonar come modalità di input interattiva e non richiede l’uso di fotocamere indossabili. La tecnologia offre un’alternativa alle persone che non possono parlare e migliora la produttività e la comodità in vari contesti.