Lo scienziato cognitivo dell’Università della Virginia Per Sederberg ha un divertente esperimento che puoi provare a casa. Tira fuori lo smartphone e, utilizzando un assistente vocale come quello del motore di ricerca di Google, pronuncia la parola “polpo” il più lentamente possibile.
Il tuo dispositivo farà fatica a ripetere ciò che hai appena detto. Potrebbe fornire una risposta insensata, o potrebbe darti qualcosa di simile ma ancora fuori luogo, come “pus delle dita”. Schifoso!
Il punto è, ha detto Sederberg, quando si tratta di ricevere segnali uditivi come fanno gli esseri umani e altri animali, nonostante tutta la potenza di calcolo dedicata all’attività da pesi massimi come Google, Deep Mind, IBM e Microsoft, l’attuale intelligenza artificiale rimane un po’ con problemi di udito.
I risultati possono variare da comici e leggermente frustranti a addirittura alienanti per coloro che hanno problemi di linguaggio.
Ma utilizzando come modello le recenti scoperte delle neuroscienze, la ricerca collaborativa UVA ha reso possibile convertire le reti neurali AI esistenti in una tecnologia in grado di ascoltarci veramente, indipendentemente dal ritmo in cui parliamo.
Lo strumento di deep learning si chiama SITHCon e, generalizzando l’input, è in grado di comprendere parole pronunciate a velocità diverse rispetto a quelle su cui è stata addestrata una rete.
Questa nuova capacità non cambierà solo l’esperienza dell’utente finale; ha il potenziale per alterare il modo in cui le reti neurali artificiali “pensano”, consentendo loro di elaborare le informazioni in modo più efficiente. E ciò potrebbe cambiare tutto in un settore che cerca costantemente di aumentare la capacità di elaborazione, ridurre al minimo l’archiviazione dei dati e ridurre l’enorme impronta di carbonio dell’IA.
Sederberg, professore associato di psicologia che funge da direttore del programma di scienze cognitive presso l’UVA, ha collaborato con lo studente laureato Brandon Jacques per programmare una demo funzionante della tecnologia, in associazione con i ricercatori della Boston University e dell’Indiana University.
“Abbiamo dimostrato che possiamo decodificare il parlato, in particolare il parlato in scala, meglio di qualsiasi modello che conosciamo”, ha affermato Jacques, che è il primo autore del documento.
Sederberg ha aggiunto: “Ci consideriamo una banda disordinata di disadattati. Abbiamo risolto questo problema che le grandi squadre di Google, Deep Mind e Apple non hanno fatto”.
La ricerca rivoluzionaria è stata presentata martedì alla conferenza internazionale di alto profilo sull’apprendimento automatico, o ICML, a Baltimora.
Formazione attuale sull’IA: sovraccarico uditivo
Per decenni, ma ancor di più negli ultimi 20 anni, le aziende hanno costruito complesse reti neurali artificiali in macchine per cercare di imitare il modo in cui il cervello umano riconosce un mondo che cambia. Questi programmi non si limitano a facilitare il reperimento di informazioni di base e il consumismo; sono anche specializzati nella previsione del mercato azionario, nella diagnosi di condizioni mediche e nella sorveglianza delle minacce alla sicurezza nazionale, tra molte altre applicazioni.
“In sostanza, stiamo cercando di rilevare modelli significativi nel mondo che ci circonda”, ha affermato Sederberg. “Questi modelli ci aiuteranno a prendere decisioni su come comportarci e come allinearci al nostro ambiente, in modo da poter ottenere quante più ricompense possibili”.
I programmatori hanno usato il cervello come ispirazione iniziale per la tecnologia, da cui il nome “reti neurali”.
“I primi ricercatori di IA hanno preso le proprietà di base dei neuroni e il modo in cui sono collegati tra loro e le hanno ricreate con il codice del computer”, ha detto Sederberg.
Per problemi complessi come insegnare alle macchine a “sentire” il linguaggio, tuttavia, i programmatori hanno involontariamente intrapreso un percorso diverso da come funziona effettivamente il cervello, ha affermato. Non sono riusciti a fare perno sulla base degli sviluppi nella comprensione delle neuroscienze.
“Il modo in cui queste grandi aziende affrontano il problema è quello di investire risorse computazionali”, ha spiegato il professore. “Quindi ingrandiscono le reti neurali. Un campo che originariamente era stato ispirato dal cervello si è trasformato in un problema di ingegneria”.
In sostanza, i programmatori immettono una moltitudine di voci diverse utilizzando parole diverse a velocità diverse e addestrano le grandi reti attraverso un processo chiamato backpropagation. I programmatori conoscono le risposte che vogliono ottenere, quindi continuano a fornire le informazioni continuamente raffinate in un ciclo. L’IA inizia quindi a dare un peso adeguato agli aspetti dell’input che si tradurranno in risposte accurate. I suoni diventano caratteri utilizzabili del testo.
“Lo fai molti milioni di volte”, ha detto Sederberg.
Sebbene i set di dati di addestramento che fungono da input siano migliorati, così come le velocità di calcolo, il processo è ancora tutt’altro che ideale poiché i programmatori aggiungono più livelli per rilevare maggiori sfumature e complessità, il cosiddetto apprendimento “profondo” o “convoluzionale”.
Oggi nel mondo si parlano più di 7.000 lingue. Le variazioni sorgono con accenti e dialetti, voci più profonde o più alte e, naturalmente, un discorso più veloce o più lento. Poiché i concorrenti creano prodotti migliori, in ogni fase un computer deve elaborare le informazioni.
Ciò ha conseguenze reali per l’ambiente. Nel 2019, uno studio ha rilevato che le emissioni di anidride carbonica dall’energia richiesta per l’addestramento di un unico grande modello di deep learning equivalevano all’impronta di vita di cinque auto.
Tre anni dopo, i set di dati e le reti neurali hanno continuato a crescere.
Come il cervello sente davvero il discorso
Il defunto Howard Eichenbaum della Boston University ha coniato il termine “celle del tempo”, il fenomeno su cui è costruita questa nuova ricerca sull’IA. I neuroscienziati che studiano le cellule del tempo nei topi, e poi negli esseri umani, hanno dimostrato che ci sono picchi nell’attività neurale quando il cervello interpreta l’input basato sul tempo, come il suono. Risiedono nell’ippocampo e in altre parti del cervello, questi singoli neuroni catturano intervalli specifici, punti dati che il cervello esamina e interpreta in relazione. Le cellule risiedono accanto alle cosiddette “cellule del luogo” che ci aiutano a formare mappe mentali.
Le cellule del tempo aiutano il cervello a creare una comprensione unificata del suono, non importa quanto velocemente o lentamente arrivino le informazioni.
“Se dico ‘oooooooc-toooooo-pussssssss’, probabilmente non hai mai sentito qualcuno dire ‘polpo’ a quella velocità, eppure puoi capirlo perché il modo in cui il tuo cervello elabora tali informazioni è chiamato ‘scala invariante’, disse Sederberg. “Quello che sostanzialmente significa è che se l’hai sentito e hai imparato a decodificare quelle informazioni su una scala, se quelle informazioni ora arrivano un po’ più velocemente o un po’ più lentamente, o anche molto più lentamente, le otterrai comunque”.
La principale eccezione alla regola, ha detto, è l’informazione che arriva in modo iperveloce. Quei dati non verranno sempre tradotti. “Perdi frammenti di informazioni”, ha detto.
Il laboratorio del ricercatore cognitivo Marc Howard presso la Boston University continua a basarsi sulla scoperta delle cellule del tempo. Collaboratore di Sederberg da oltre 20 anni, Howard studia come gli esseri umani comprendono gli eventi della loro vita. Quindi converte quella comprensione in matematica.
L’equazione di Howard che descrive la memoria uditiva implica una sequenza temporale. La sequenza temporale viene creata utilizzando le celle temporali che si attivano in sequenza. Fondamentalmente, l’equazione prevede che la linea temporale si offuschi, e in un modo particolare, mentre il suono si sposta verso il passato. Questo perché la memoria del cervello di un evento diventa meno precisa con il tempo.
“Quindi c’è uno schema specifico di licenziamento che codifica per ciò che è accaduto per un periodo specifico in passato, e le informazioni diventano sempre più sfocate man mano che si va avanti nel passato”, ha detto Sederberg. “La cosa interessante è che Marc e un post-dottorato che ha esaminato il laboratorio di Marc hanno capito matematicamente come dovrebbe apparire. Poi i neuroscienziati hanno iniziato a trovarne prove nel cervello”.
Il tempo aggiunge contesto ai suoni, e questo fa parte di ciò che dà significato a ciò che ci viene detto. Howard ha detto che la matematica si riduce perfettamente.
“Le cellule del tempo nel cervello sembrano obbedire a questa equazione”, ha detto Howard.
Codifica UVA il decodificatore vocale
Circa cinque anni fa, Sederberg e Howard hanno identificato che il campo dell’IA potrebbe trarre vantaggio da tali rappresentazioni ispirate al cervello. Lavorando con il laboratorio di Howard e in consultazione con Zoran Tiganj e colleghi dell’Università dell’Indiana, il Computational Memory Lab di Sederberg ha iniziato a costruire e testare modelli.
Jacques ha fatto il grande passo avanti circa tre anni fa che lo ha aiutato a fare la codifica per la risultante proof of concept. L’algoritmo presenta una forma di compressione che può essere decompressa secondo necessità, proprio come un file zip su un computer funziona per comprimere e archiviare file di grandi dimensioni. La macchina memorizza solo la “memoria” di un suono ad una risoluzione che sarà utile in seguito, risparmiando spazio di archiviazione.
“Poiché l’informazione è compressa in modo logaritmico, non cambia completamente lo schema quando l’input viene ridimensionato, ma semplicemente si sposta”, ha affermato Sederberg.
La formazione AI per SITHCon è stata paragonata a una risorsa preesistente disponibile gratuitamente per i ricercatori chiamata “rete convoluzionale temporale”. L’obiettivo era convertire la rete da una addestrata solo per ascoltare a velocità specifiche.
Il processo è iniziato con un linguaggio di base – il codice Morse, che utilizza suoni lunghi e brevi per rappresentare punti e trattini – ed è passato a un set open source di anglofoni che pronunciano i numeri da 1 a 9 per l’input.
Alla fine, non è stata necessaria alcuna ulteriore formazione. Una volta che l’IA ha riconosciuto la comunicazione a una velocità, non potrebbe essere ingannata se un oratore ha tirato fuori le parole.
“Abbiamo dimostrato che il SITHCon può generalizzare al parlato con velocità aumentata o ridotta, mentre altri modelli non sono riusciti a decodificare le informazioni a velocità che non vedevano durante l’allenamento”, ha detto Jacques.
Ora UVA ha deciso di rendere disponibile gratuitamente il suo codice, al fine di far avanzare le conoscenze. Il team afferma che le informazioni dovrebbero adattarsi a qualsiasi rete neurale che traduce la voce.
“Pubblicheremo e rilasceremo tutto il codice perché crediamo nella scienza aperta”, ha affermato Sederberg. “La speranza è che le aziende lo vedano, si entusiasmino davvero e dicano che vorrebbero finanziare il nostro continuo lavoro. Abbiamo sfruttato un modo fondamentale in cui il cervello elabora le informazioni, combinando potenza ed efficienza, e abbiamo solo scalfito la superficie di ciò che questi modelli di intelligenza artificiale possono fare”.
Ma sapendo che hanno costruito una trappola per topi migliore, i ricercatori sono preoccupati per come potrebbe essere utilizzata la nuova tecnologia?
Sederberg ha affermato di essere ottimista sul fatto che l’IA che sente meglio sarà affrontata in modo etico, come in teoria dovrebbe essere tutta la tecnologia.
“In questo momento, queste aziende si sono imbattute in colli di bottiglia computazionali mentre cercavano di costruire strumenti più potenti e utili”, ha affermato. “Bisogna sperare che gli aspetti positivi prevalgano sugli aspetti negativi. Se riesci a scaricare più processi mentali sui computer, ci renderà un mondo più produttivo, nel bene e nel male”.
Jacques, un nuovo padre, ha dichiarato: “È eccitante pensare che il nostro lavoro possa dare vita a una nuova direzione nell’IA”.