DeepMind ha scoperto che una tecnica di apprendimento dell’IA funziona anche nel cervello umano

Gli sviluppi dell’intelligenza artificiale spesso traggono ispirazione da come pensano gli umani, ma ora l’IA ha cambiato le basi per insegnarci come apprendono i cervelli.

Will Dabney dello studio tecnico DeepMind di Londra e i suoi colleghi hanno scoperto che un recente sviluppo dell’apprendimento automatico chiamato apprendimento distributivo di rinforzo fornisce anche una nuova spiegazione di come funzionano i percorsi di ricompensa nel cervello. Questi percorsi regolano la nostra risposta a eventi piacevoli e sono mediati dai neuroni che rilasciano la dopamina chimica del cervello.

“La dopamina nel cervello è un tipo di segnale di sorpresa”, afferma Dabney. “Quando le cose vanno meglio del previsto, viene rilasciata più dopamina.”

In precedenza si pensava che questi neuroni della dopamina rispondessero tutti in modo identico. “Un po ‘come un coro, ma in cui tutti cantano esattamente la stessa nota”, afferma Dabney.

Ma il team ha scoperto che i singoli neuroni della dopamina sembrano effettivamente variare – ognuno è sintonizzato su un diverso livello di ottimismo o pessimismo.

Per saperne di più: DeepMind AI batte gli umani nel decifrare le compresse greche antiche danneggiate
“Tutti finiscono per segnalare a diversi livelli di sorpresa”, afferma Dabney. “Più come un coro, tutti cantano note diverse, si armonizzano insieme.”

La scoperta si è ispirata a un processo noto come apprendimento di rinforzo distributivo, che è una delle tecniche utilizzate dall’IA per dominare giochi come Go e Starcraft II .

Nella sua forma più semplice, l’apprendimento per rinforzo è l’idea che una ricompensa rafforzi il comportamento che ha portato alla sua acquisizione. Richiede una comprensione di come un’azione corrente porta a una ricompensa futura. Ad esempio, un cane può imparare il comando “sedersi” perché viene ricompensato con una sorpresa quando lo fa.

In precedenza, i modelli di apprendimento di rinforzo sia nell’IA che nelle neuroscienze si concentravano sull’apprendimento per prevedere una ricompensa futura “media”. “Ma questo non riflette la realtà mentre la sperimentiamo”, afferma Dabney.

“Quando qualcuno gioca alla lotteria, ad esempio, si aspettano di vincere o si aspettano di perdere, ma non si aspettano questo risultato medio a metà che non si verifica realmente”, afferma.

Quando il futuro è incerto, i possibili risultati possono invece essere rappresentati come una distribuzione di probabilità: alcuni sono positivi, altri negativi. Gli IA che utilizzano algoritmi di apprendimento del rinforzo distributivo sono in grado di prevedere l’intero spettro delle possibili ricompense.

Per saperne di più: è troppo presto per dire se l’IA medica di DeepMind salverà delle vite
Per verificare se i percorsi di ricompensa della dopamina nel cervello funzionano anche attraverso una distribuzione, il team ha registrato le risposte dei singoli neuroni della dopamina nei topi. I topi sono stati addestrati a svolgere un compito e hanno ricevuto ricompense di dimensioni diverse e imprevedibili.

I ricercatori hanno scoperto che diverse cellule di dopamina hanno mostrato livelli di sorpresa attendibilmente diversi.

“Associare ricompense a determinati stimoli o azioni è di fondamentale importanza per la sopravvivenza”, afferma Raul Vicente dell’Università di Tartu, in Estonia. “Il cervello non può permettersi di buttare via informazioni preziose sui premi”.

“Su larga scala, lo studio è in linea con l’attuale visione secondo cui per operare in modo efficiente il cervello deve rappresentare non solo il valore medio di una variabile, ma quanto spesso una variabile assume valori diversi”, afferma Vicente. “È un bell’esempio di come gli algoritmi computazionali possono guidarci su cosa cercare nelle risposte neurali.”

Tuttavia, aggiunge Vicente, sono necessarie ulteriori ricerche per dimostrare se i risultati si applicano ad altre specie o regioni del cervello.

Donna Lu da newscientist.com

Di ihal