Evoluzione, ricompense e intelligenza artificiale 

Reward Is Enough , un articolo degli scienziati di DeepMind. Come suggerisce il titolo, i ricercatori ipotizzano che la giusta ricompensa sia  tutto ciò che serve per creare le capacità associate all’intelligenza , come la percezione, le funzioni motorie e il linguaggio.

Ciò è in contrasto con i sistemi di intelligenza artificiale che cercano di replicare  funzioni specifiche dell’intelligenza naturale  come la classificazione delle immagini, la navigazione in ambienti fisici o il completamento di frasi.I ricercatori si spingono fino a suggerire che con una ricompensa ben definita, un ambiente complesso e il giusto algoritmo di apprendimento per rinforzo, saremo in grado di raggiungere l’intelligenza artificiale generale, il tipo di capacità di problem solving e cognitive presenti negli esseri umani e, per un grado minore, negli animali.

L’articolo e il giornale hanno innescato un acceso dibattito sui social media, con reazioni che vanno dal pieno sostegno dell’idea al rifiuto assoluto. Naturalmente, entrambe le parti fanno affermazioni valide. Ma la verità sta nel mezzo. L’evoluzione naturale è la prova che l’ipotesi della ricompensa è scientificamente valida. Ma l’implementazione dell’approccio della pura ricompensa per raggiungere l’intelligenza a livello umano ha alcuni requisiti molto pesanti.

In questo post, cercherò di disambiguare in termini semplici dove si trova il confine tra teoria e pratica.

Selezione naturale
Nel loro articolo, gli scienziati di DeepMind presentano la seguente ipotesi: “L’intelligenza e le sue abilità associate possono essere intese come il perseguimento della massimizzazione della ricompensa da parte di un agente che agisce nel suo ambiente”.

L’evidenza scientifica supporta questa affermazione.

Gli esseri umani e gli animali devono la loro intelligenza a una legge molto semplice: la selezione naturale. Non sono un esperto sull’argomento, ma suggerisco di leggere  The Blind Watchmaker  del biologo Richard Dawkins, che fornisce un resoconto molto accessibile di come l’evoluzione ha portato a tutte le forme di vita e di intelligenza sul nostro pianeta.

In poche parole, la natura dà la preferenza alle forme di vita che sono più adatte a sopravvivere nei loro ambienti. Coloro che possono resistere alle sfide poste dall’ambiente (tempo atmosferico, scarsità di cibo, ecc.) e da altre forme di vita (predatori, virus, ecc.) sopravviveranno, si riprodurranno e trasmettono i loro geni alla generazione successiva. Quelli che non vengono eliminati.

Secondo Dawkins, “In natura, il solito agente di selezione è diretto, netto e semplice. È il triste mietitore. Naturalmente, le  ragioni  della sopravvivenza sono tutt’altro che semplici: ecco perché la selezione naturale può costruire animali e piante di una tale formidabile complessità. Ma c’è qualcosa di molto crudo e semplice nella morte stessa. E la morte non casuale è tutto ciò che serve per selezionare i fenotipi, e quindi i geni che contengono, in natura».

Ma come emergono le diverse forme di vita? Ogni organismo appena nato eredita i geni dei suoi genitori. Ma a differenza del mondo digitale, copiare nella vita organica non è una cosa esatta. Pertanto, la prole spesso subisce mutazioni, piccoli cambiamenti ai loro geni che possono avere un enorme impatto su tutte le generazioni. Queste mutazioni possono avere un effetto semplice, come un piccolo cambiamento nella struttura muscolare o nel colore della pelle. Ma possono anche diventare il nucleo per lo sviluppo di nuovi organi (p. es., polmoni, reni, occhi) o per eliminare quelli vecchi (p. es., coda, branchie).

Se queste mutazioni aiutano a migliorare le possibilità di sopravvivenza dell’organismo (ad esempio, mimetizzazione migliore o maggiore velocità), saranno preservate e trasmesse alle generazioni future, dove ulteriori mutazioni potrebbero rafforzarle. Ad esempio, il primo organismo che sviluppò la capacità di analizzare le informazioni sulla luce aveva un enorme vantaggio su tutti gli altri che non lo facevano, anche se la sua capacità di vedere non era paragonabile a quella degli animali e degli umani di oggi. Questo vantaggio gli ha permesso di sopravvivere e riprodursi meglio. Quando i suoi discendenti si riproducevano, quelli le cui mutazioni miglioravano la vista superavano e sopravvivevano ai loro coetanei. Attraverso migliaia (o milioni) di generazioni, questi cambiamenti hanno prodotto un organo complesso come l’occhio.

I semplici meccanismi di mutazione e selezione naturale sono stati sufficienti per dare origine a tutte le diverse forme di vita che vediamo sulla Terra, dai batteri alle piante, pesci, uccelli, anfibi e mammiferi.

Lo stesso meccanismo di auto-rafforzamento ha creato anche il cervello e le sue meraviglie associate. Nel suo libro  Conscience: The Origin of Moral Intuition , la scienziata Patricia Churchland esplora come la selezione naturale abbia portato allo sviluppo della corteccia, la parte principale del cervello che dà ai mammiferi la capacità di apprendere dal loro ambiente. L’evoluzione della corteccia ha permesso ai mammiferi di sviluppare comportamenti sociali e imparare a vivere in branchi, branchi, truppe e tribù. Negli esseri umani, l’evoluzione della corteccia ha dato origine a facoltà cognitive complesse, alla capacità di sviluppare linguaggi ricchi e alla capacità di stabilire norme sociali.

Pertanto, se consideri la sopravvivenza come la ricompensa finale, l’ipotesi principale che gli scienziati di DeepMind fanno è scientificamente valida. Tuttavia, quando si tratta di implementare questa regola, le cose si complicano molto.

Apprendimento per rinforzo e intelligenza generale artificiale

Nel loro articolo, gli scienziati di DeepMind affermano che l’ipotesi della ricompensa può essere implementata con  algoritmi di apprendimento per rinforzo , un ramo dell’intelligenza artificiale in cui un agente sviluppa gradualmente il proprio comportamento interagendo con il proprio ambiente. Un agente di apprendimento per rinforzo inizia eseguendo azioni casuali. In base a come tali azioni si allineano con gli obiettivi che sta cercando di raggiungere, l’agente riceve ricompense. Attraverso molti episodi, l’agente impara a sviluppare sequenze di azioni che massimizzano la sua ricompensa nel suo ambiente.

Secondo gli scienziati di DeepMind, “Un agente di apprendimento per rinforzo sufficientemente potente e generale può in definitiva dare origine all’intelligenza e alle sue abilità associate. In altre parole, se un agente può adattare continuamente il suo comportamento in modo da migliorare la sua ricompensa cumulativa, allora tutte le abilità che sono ripetutamente richieste dal suo ambiente devono alla fine essere prodotte nel comportamento dell’agente.

In un  dibattito online a dicembre , l’informatico Richard Sutton, uno dei coautori dell’articolo, ha affermato: “L’apprendimento per rinforzo è la prima teoria computazionale dell’intelligenza… Nell’apprendimento per rinforzo, l’obiettivo è massimizzare un segnale di ricompensa arbitrario”.

DeepMind ha molta esperienza per dimostrare questa affermazione. Hanno già sviluppato agenti di apprendimento per rinforzo che possono  superare gli umani  in Go, scacchi, Atari, StarCraft e altri giochi . Hanno anche sviluppato modelli di apprendimento per rinforzo per fare progressi in  alcuni dei problemi più complessi della scienza .

Gli scienziati hanno inoltre scritto nel loro articolo: “Secondo la nostra ipotesi, l’intelligenza generale può invece essere intesa e implementata massimizzando  una singola ricompensa in un singolo ambiente complesso  [enfasi mia]”.

È qui che l’ipotesi si separa dalla pratica. La parola chiave qui è “complesso”. Gli ambienti che DeepMind (e il suo quasi rivale  OpenAI ) hanno esplorato finora con l’apprendimento per rinforzo non sono così complessi come il mondo fisico. E avevano ancora bisogno del sostegno finanziario e di vaste risorse computazionali di  aziende tecnologiche molto ricche . In alcuni casi, hanno dovuto ancora sminuire gli ambienti per accelerare l’addestramento dei loro modelli di apprendimento per rinforzo e ridurre i costi. In altri, hanno dovuto ridisegnare la ricompensa per assicurarsi che gli agenti RL non rimanessero bloccati nell’optimum locale sbagliato.

(Vale la pena notare che gli scienziati riconoscono nel loro articolo che non possono offrire “garanzia teorica sull’efficienza del campione degli agenti di apprendimento per rinforzo”.)

Ora, immagina cosa ci vorrebbe per usare l’apprendimento per rinforzo per replicare l’evoluzione e raggiungere l’intelligenza a livello umano. Per prima cosa avresti bisogno di una simulazione del mondo. Ma a che livello simuleresti il ​​mondo? La mia ipotesi è che qualsiasi cosa al di fuori della scala quantistica sarebbe imprecisa. E non abbiamo una frazione della potenza di calcolo necessaria per creare simulazioni del mondo su scala quantistica.

Diciamo che avevamo la potenza di calcolo per creare una simile simulazione. Potremmo iniziare a circa 4 miliardi di anni fa, quando sono emerse le prime forme di vita. Avresti bisogno di una rappresentazione esatta dello stato della Terra in quel momento. Avremmo bisogno di conoscere lo stato iniziale dell’ambiente in quel momento. E non abbiamo ancora una teoria precisa su questo.

Un’alternativa sarebbe creare una scorciatoia e partire da, diciamo, 8 milioni di anni fa, quando i nostri antenati scimmia vivevano ancora sulla terra. Questo ridurrebbe il tempo di formazione, ma avremmo uno stato iniziale molto più complesso da cui partire. A quel tempo, c’erano milioni di diverse forme di vita sulla Terra, ed erano strettamente interconnesse. Si sono evoluti insieme. Toglierli dall’equazione potrebbe avere un enorme impatto sul corso della simulazione.

Pertanto, hai fondamentalmente due problemi chiave: potenza di calcolo e stato iniziale. Più vai indietro nel tempo, più potenza di calcolo ti servirà per eseguire la simulazione. D’altra parte, più avanzi, più complesso sarà il tuo stato iniziale. E l’evoluzione ha creato ogni sorta di forme di vita intelligenti e non intelligenti e assicurarsi che potessimo riprodurre i passaggi esatti che hanno portato all’intelligenza umana senza alcuna guida e solo attraverso la ricompensa è una scommessa difficile.

 
Molti diranno che non hai bisogno di una simulazione esatta del mondo e devi solo approssimare lo spazio del problema in cui il tuo agente di apprendimento per rinforzo vuole operare.

Ad esempio, nel loro articolo, gli scienziati menzionano l’esempio di un robot per la pulizia della casa: “Affinché un robot da cucina massimizzi la pulizia, deve presumibilmente avere capacità di percezione (per differenziare utensili puliti e sporchi), conoscenza (per capire utensili), controllo motorio (per manipolare utensili), memoria (per ricordare le posizioni degli utensili), linguaggio (per prevedere il futuro disordine dal dialogo) e intelligenza sociale (per incoraggiare i bambini a fare meno disordine). Un comportamento che massimizza la pulizia deve quindi cedere tutte queste capacità al servizio di quel singolare obiettivo”.

Questa affermazione è vera, ma minimizza le complessità dell’ambiente. Le cucine sono state create dall’uomo. Ad esempio, la forma delle maniglie dei cassetti, delle maniglie delle porte, dei pavimenti, degli armadi, delle pareti, dei tavoli e di tutto ciò che si vede in cucina è stata ottimizzata per le funzioni sensomotorie dell’uomo. Pertanto, un robot che vorrebbe lavorare in un ambiente del genere dovrebbe sviluppare abilità sensomotorie simili a quelle degli umani. Puoi creare scorciatoie, come evitare le complessità del camminare bipede o le mani con le dita e le articolazioni. Ma poi, ci sarebbero incongruenze tra il robot e gli umani che utilizzeranno le cucine. Molti scenari che sarebbero facili da gestire per un essere umano (camminare su una sedia rovesciata) diventerebbero proibitivi per il robot.

Inoltre, altre abilità, come il linguaggio, richiederebbero un’infrastruttura ancora più simile tra il robot e gli umani che condividerebbero l’ambiente. Gli agenti intelligenti devono essere in grado di sviluppare modelli mentali astratti l’uno dell’altro per cooperare o competere in un ambiente condiviso. Il linguaggio omette molti dettagli importanti, come l’esperienza sensoriale, gli obiettivi, i bisogni. Colmiamo le lacune con la nostra conoscenza intuitiva e cosciente dello stato mentale del nostro interlocutore. Potremmo fare supposizioni sbagliate, ma quelle sono le eccezioni, non la norma.

E infine, sviluppare una nozione di “pulizia” come ricompensa è molto complicato perché è strettamente legata alla conoscenza, alla vita e agli obiettivi umani. Ad esempio, rimuovere ogni pezzo di cibo dalla cucina la renderebbe sicuramente più pulita, ma gli umani che usano la cucina ne sarebbero contenti?

Un robot che è stato ottimizzato per la “pulizia” farebbe fatica a coesistere e cooperare con esseri viventi che sono stati ottimizzati per la sopravvivenza.

Qui puoi prendere di nuovo scorciatoie creando obiettivi gerarchici, dotando il robot e i suoi modelli di apprendimento per rinforzo di conoscenze pregresse e utilizzando il feedback umano per guidarlo nella giusta direzione. Ciò aiuterebbe molto a rendere più facile per il robot comprendere e interagire con gli esseri umani e gli ambienti progettati dall’uomo. Ma allora tradireste con l’approccio della sola ricompensa. E il semplice fatto che il tuo agente robot inizi con arti pre-progettati e dispositivi per l’acquisizione di immagini e l’emissione di suoni è di per sé l’integrazione di conoscenze pregresse.

In teoria, la ricompensa è sufficiente solo per qualsiasi tipo di intelligenza. Ma in pratica, c’è un compromesso tra complessità dell’ambiente, design della ricompensa e design dell’agente.

In futuro, potremmo essere in grado di raggiungere un livello di potenza di calcolo che consentirà di raggiungere l’intelligenza generale attraverso la pura ricompensa e l’apprendimento per rinforzo. Ma per il momento, ciò che funziona sono gli approcci ibridi che implicano l’apprendimento e l’ingegneria complessa di ricompense e architetture di agenti di intelligenza artificiale.

Di ihal