Il MIt : Adesso l’intelligenza artificiale ascolta come noi

Il sistema di apprendimento automatico elabora suoni simili a quelli umani
I neuroscienziati addestrano una rete neurale profonda per analizzare il parlato e la musica.

Utilizzando un sistema di apprendimento automatico noto come rete neurale profonda, i ricercatori del MIT hanno creato il primo modello in grado di replicare le prestazioni umane in attività uditive come l’identificazione di un genere musicale.

Questo modello, che consiste in molti strati di unità di elaborazione delle informazioni che possono essere addestrati su enormi volumi di dati per eseguire compiti specifici, è stato utilizzato dai ricercatori per far luce su come il cervello umano potrebbe svolgere gli stessi compiti.

“Ciò che questi modelli ci danno, per la prima volta, sono i sistemi meccanici in grado di eseguire attività sensoriali che contano per gli umani e che lo fanno a livello umano”, dice Josh McDermott, Frederick A. e Carole J. Middleton Assistant Professor of Neuroscience nel Dipartimento di Cervello e Scienze Cognitive al MIT e l’autore senior dello studio. “Storicamente, questo tipo di elaborazione sensoriale è stato difficile da capire, in parte perché non abbiamo davvero avuto una base teorica molto chiara e un buon modo per sviluppare modelli di ciò che potrebbe accadere”.

Lo studio, che appare nel numero del 19 aprile di Neuron , offre anche prove che la corteccia uditiva umana è organizzata in un’organizzazione gerarchica, molto simile alla corteccia visiva. In questo tipo di organizzazione, le informazioni sensoriali passano attraverso fasi successive dell’elaborazione, con informazioni di base elaborate in precedenza e funzioni più avanzate come il significato della parola estratto in fasi successive.

Alexander Kell e il professore assistente alla Stanford University, Daniel Yamins, sono gli autori principali del paper. Altri autori sono l’ex studente del MIT Erica Shook e l’ex postdoc del MIT Sam Norman-Haignere.

Quando le reti neurali profonde furono sviluppate per la prima volta negli anni ’80, i neuroscienziati speravano che tali sistemi potessero essere usati per modellare il cervello umano. Tuttavia, i computer di quell’epoca non erano abbastanza potenti per costruire modelli abbastanza grandi da eseguire compiti reali come il riconoscimento di oggetti o il riconoscimento vocale.

Negli ultimi cinque anni, i progressi nella potenza di calcolo e nella tecnologia delle reti neurali hanno reso possibile l’utilizzo di reti neurali per eseguire compiti difficili nel mondo reale e sono diventati l’approccio standard in molte applicazioni di ingegneria. In parallelo, alcuni neuroscienziati hanno rivisitato la possibilità che questi sistemi potessero essere usati per modellare il cervello umano.

“È stata un’eccitante opportunità per le neuroscienze, in quanto possiamo effettivamente creare sistemi in grado di fare alcune delle cose che le persone possono fare, e quindi possiamo interrogare i modelli e confrontarli con il cervello”, afferma Kell.

I ricercatori del MIT hanno addestrato la loro rete neurale per eseguire due compiti auditivi, uno che coinvolge il discorso e l’altro che coinvolge la musica. Per il compito del discorso, i ricercatori hanno dato al modello migliaia di registrazioni di due secondi di una persona che parlava. Il compito era identificare la parola nel mezzo della clip. Per il compito musicale, è stato chiesto al modello di identificare il genere di una clip musicale di due secondi. Ogni clip includeva anche il rumore di fondo per rendere il compito più realistico (e più difficile).

Dopo molte migliaia di esempi, il modello ha imparato a svolgere il compito con la stessa precisione di un ascoltatore umano.

“L’idea è che nel tempo la modella diventi sempre più brava nel compito”, afferma Kell. “La speranza è che stia imparando qualcosa di generale, quindi se presenti un nuovo suono che il modello non ha mai sentito prima, andrà bene, e in pratica succede spesso”.

Il modello tendeva anche a commettere errori sulle stesse clip su cui gli umani hanno commesso più errori.

Le unità di elaborazione che costituiscono una rete neurale possono essere combinate in una varietà di modi, formando diverse architetture che influenzano le prestazioni del modello.

Il team del MIT ha scoperto che il miglior modello per questi due compiti era quello che divideva l’elaborazione in due serie di fasi. La prima serie di fasi è stata condivisa tra le attività, ma in seguito è stata divisa in due sezioni per un’ulteriore analisi, una per il compito vocale e una per il compito del genere musicale.

Evidenza per la gerarchia

I ricercatori hanno quindi usato il loro modello per esplorare una domanda di vecchia data sulla struttura della corteccia uditiva: se è organizzata gerarchicamente.

In un sistema gerarchico, una serie di regioni del cervello compie diversi tipi di calcolo delle informazioni sensoriali mentre fluisce attraverso il sistema. È stato ben documentato che la corteccia visiva ha questo tipo di organizzazione. Le regioni precedenti, note come corteccia visiva primaria, rispondono a caratteristiche semplici come il colore o l’orientamento. Le fasi successive consentono attività più complesse come il riconoscimento degli oggetti.

Tuttavia, è stato difficile verificare se questo tipo di organizzazione esiste anche nella corteccia uditiva, in parte perché non ci sono stati buoni modelli in grado di replicare il comportamento uditivo umano.

“Pensavamo che se potessimo costruire un modello che potesse fare alcune delle stesse cose che fanno le persone, allora potremmo essere in grado di confrontare diversi stadi del modello in diverse parti del cervello e ottenere alcune prove per capire se quelle parti del cervello il cervello potrebbe essere organizzato gerarchicamente “, dice McDermott.

I ricercatori hanno scoperto che nel loro modello, le caratteristiche di base del suono come la frequenza sono più facili da estrarre nelle fasi iniziali. Man mano che le informazioni vengono elaborate e si spostano più lontano lungo la rete, diventa più difficile estrarre la frequenza, ma è più facile estrarre informazioni di livello superiore come le parole.

Per vedere se le fasi del modello potrebbero replicare come la corteccia uditiva umana elabora le informazioni sonore, i ricercatori hanno usato la risonanza magnetica funzionale (fMRI) per misurare diverse regioni della corteccia uditiva mentre il cervello elabora i suoni del mondo reale. Hanno poi confrontato le risposte del cervello alle risposte nel modello quando ha elaborato gli stessi suoni.

Hanno scoperto che gli stadi intermedi del modello corrispondevano meglio all’attività nella corteccia uditiva primaria, e gli stadi successivi corrispondevano meglio all’attività al di fuori della corteccia primaria. Ciò fornisce la prova che la corteccia uditiva potrebbe essere organizzata in modo gerarchico, simile alla corteccia visiva, dicono i ricercatori.

“Quello che vediamo molto chiaramente è una distinzione tra corteccia uditiva primaria e tutto il resto”, dice McDermott.

Alex Huth, un assistente professore di neuroscienza e informatica presso l’Università del Texas ad Austin, afferma che la carta è entusiasmante in parte perché offre prove convincenti che la parte iniziale della corteccia uditiva esegue un’elaborazione generica del suono mentre la corteccia uditiva più alta esegue più compiti specializzati.

“Questo è uno dei misteri in corso nella neuroscienza uditiva: cosa distingue la corteccia uditiva precoce dalla corteccia uditiva superiore? Questo è il primo documento che ho visto che ha un’ipotesi computazionale per questo “, dice Huth, che non è stato coinvolto nella ricerca.

Gli autori ora pianificano di sviluppare modelli in grado di eseguire altri tipi di compiti uditivi, come determinare la posizione da cui proveniva un particolare suono, per esplorare se queste attività possono essere eseguite dai percorsi identificati in questo modello o se richiedono percorsi separati, che potrebbe quindi essere indagato nel cervello.

La ricerca è stata finanziata dal National Institutes of Health, dalla National Science Foundation, da un dipartimento di Energy Computational Science Graduate Fellowship e da un McDonnell Scholar Award.

Il MIt : Adesso l’intelligenza artificiale ascolta come noi

Diihal

Di ihal

Articoli correlati

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Arch-Router: il nuovo modello di routing per ottimizzare l’assegnazione dei compiti tra LLM

Isomorphic Labs, l’AI di Google DeepMind entra nelle sperimentazioni cliniche

Lascia un commento Annulla risposta

You missed

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Grok arriva sulle Tesla: l’intelligenza artificiale di Elon Musk si integra nelle auto

Lavawave lancia SCAM GUARD, AI per contrastare i crimini digitali

Google Gemini introduce la funzione di generazione video da foto con Veo 3