La protesi neurale utilizza l’attività cerebrale per decodificare il parlato
Un nuovo modello di machine learning interpretabile
Decodifica vocale da un piccolo set di elettrodi EEG intracranici minimamente invasivi spazialmente segregati con una rete neurale compatta e interpretabile
I ricercatori dell’Università HSE e dell’Università statale di medicina e odontoiatria di Mosca hanno sviluppato un modello di apprendimento automatico in grado di prevedere la parola che sta per essere pronunciata da un soggetto in base alla loro attività neurale registrata con un piccolo set di elettrodi minimamente invasivi. Il documento “Decodifica vocale da un piccolo insieme di elettrodi EEG intracranici minimamente invasivi spazialmente segregati con una rete neurale compatta e interpretabile” è stato pubblicato sul Journal of Neural Engineering . La ricerca è stata finanziata da una sovvenzione del governo russo nell’ambito del progetto nazionale “Scienza e università”.
Milioni di persone in tutto il mondo sono affette da disturbi del linguaggio che limitano la loro capacità di comunicare. Le cause della perdita del linguaggio possono variare e includere l’ictus e alcune condizioni congenite.
Oggi è disponibile la tecnologia per ripristinare la funzione di comunicazione di tali pazienti, comprese le interfacce di “discorso silenzioso” che riconoscono il parlato monitorando il movimento dei muscoli articolatori mentre la persona pronuncia le parole senza emettere alcun suono. Tuttavia, tali dispositivi aiutano alcuni pazienti ma non altri, come le persone con paralisi dei muscoli facciali.
Le neuroprotesi vocali – interfacce cervello-computer in grado di decodificare il parlato in base all’attività cerebrale – possono fornire una soluzione accessibile e affidabile per ripristinare la comunicazione a tali pazienti.
A differenza dei personal computer, i dispositivi con un’interfaccia cervello-computer (BCI) sono controllati direttamente dal cervello senza la necessità di una tastiera o di un microfono.
Uno dei principali ostacoli a un uso più ampio delle BCI nelle protesi vocali è che questa tecnologia richiede un intervento chirurgico altamente invasivo per impiantare elettrodi nel tessuto cerebrale.
Il riconoscimento vocale più accurato è ottenuto da neuroprotesi con elettrodi che coprono un’ampia area della superficie corticale. Tuttavia, queste soluzioni per la lettura dell’attività cerebrale non sono destinate all’uso a lungo termine e presentano rischi significativi per i pazienti.
I ricercatori dell’HSE Center for Bioelectric Interfaces e dell’Università statale di medicina e odontoiatria di Mosca hanno studiato la possibilità di creare una neuroprotesi funzionante in grado di decodificare il parlato con un’accuratezza accettabile leggendo l’attività cerebrale da un piccolo set di elettrodi impiantati in un’area corticale limitata. Gli autori suggeriscono che in futuro questa procedura minimamente invasiva potrebbe essere eseguita anche in anestesia locale. Nel presente studio, i ricercatori hanno raccolto dati da due pazienti con epilessia a cui erano già stati impiantati elettrodi intracranici ai fini della mappatura prechirurgica per localizzare le zone di insorgenza delle crisi.
Al primo paziente sono stati impiantati bilateralmente un totale di cinque alberi sEEG con sei contatti ciascuno, mentre al secondo paziente sono state impiantate nove strisce elettrocorticografiche (ECoG) con otto contatti ciascuna. A differenza dell’ECoG, gli elettrodi per sEEG possono essere impiantati senza una craniotomia completa tramite un foro praticato nel cranio. In questo studio, solo i sei contatti di un singolo albero sEEG in un paziente e gli otto contatti di una striscia ECoG nell’altro sono stati utilizzati per decodificare l’attività neurale.
Ai soggetti è stato chiesto di leggere ad alta voce sei frasi, ciascuna presentata da 30 a 60 volte in ordine casuale. Le frasi variavano nella struttura e la maggior parte delle parole all’interno di una singola frase iniziava con la stessa lettera. Le frasi contenevano un totale di 26 parole diverse. Mentre i soggetti leggevano, gli elettrodi registravano la loro attività cerebrale.
Questi dati sono stati quindi allineati con i segnali audio per formare 27 classi, incluse 26 parole e una classe di silenzio. Il set di dati di addestramento risultante (contenente segnali registrati nei primi 40 minuti dell’esperimento) è stato inserito in un modello di apprendimento automatico con un’architettura basata su rete neurale. Il compito di apprendimento per la rete neurale era prevedere la successiva parola (classe) pronunciata in base ai dati sull’attività neurale che precedevano la sua pronuncia.
Nel progettare l’architettura della rete neurale, i ricercatori hanno voluto renderla semplice, compatta e facilmente interpretabile. Hanno escogitato un’architettura a due stadi che prima estraeva rappresentazioni vocali interne dai dati registrati sull’attività cerebrale, producendo coefficienti spettrali log-mel, e quindi prevedeva una classe specifica, ad esempio una parola o un silenzio.
Così addestrata, la rete neurale ha raggiunto un’accuratezza del 55% utilizzando solo sei canali di dati registrati da un singolo elettrodo sEEG nel primo paziente e un’accuratezza del 70% utilizzando solo otto canali di dati registrati da una singola striscia ECoG nel secondo paziente. Tale accuratezza è paragonabile a quella dimostrata in altri studi utilizzando dispositivi che richiedevano l’impianto di elettrodi sull’intera superficie corticale.
Il modello interpretabile che ne risulta consente di spiegare in termini neurofisiologici quali informazioni neurali contribuiscono maggiormente a prevedere una parola che sta per essere pronunciata. I ricercatori hanno esaminato i segnali provenienti da diverse popolazioni neuronali per determinare quali di essi fossero fondamentali per l’attività a valle. Le loro scoperte erano coerenti con i risultati della mappatura vocale, suggerendo che il modello utilizza segnali neurali che sono fondamentali e possono quindi essere utilizzati per decodificare il discorso immaginario.
Un altro vantaggio di questa soluzione è che non richiede l’ingegnerizzazione manuale delle funzioni. Il modello ha imparato a estrarre rappresentazioni vocali direttamente dai dati sull’attività cerebrale. L’interpretabilità dei risultati indica anche che la rete decodifica i segnali dal cervello piuttosto che da qualsiasi attività concomitante, come segnali elettrici dai muscoli articolatori o derivanti da un effetto microfono.
I ricercatori sottolineano che la previsione era sempre basata sui dati dell’attività neurale che precedevano l’espressione. Questo, sostengono, fa in modo che la regola decisionale non utilizzi la risposta della corteccia uditiva al discorso già pronunciato.
“L’uso di tali interfacce comporta rischi minimi per il paziente. Se tutto funziona, potrebbe essere possibile decodificare il parlato immaginario dall’attività neurale registrata da un piccolo numero di elettrodi minimamente invasivi impiantati in un ambiente ambulatoriale con anestesia locale”, – Alexey Ossadtchi , principale autore dello studio, direttore del Center for Bioelectric Interfaces dell’HSE Institute for Cognitive Neuroscience.