Perché i videogiochi e i giochi da tavolo non sono una buona misura dell’intelligenza artificiale

Misurare l’intelligenza dell’IA è una delle domande più difficili ma più importanti nel campo dell’informatica. Se non riesci a capire se la macchina che hai costruito oggi è più intelligente rispetto a ieri, come fai a sapere che stai facendo progressi?

A prima vista, questo potrebbe sembrare un non-problema. “Ovviamente l’IA sta diventando più intelligente” è una risposta. “Basta guardare a tutti i soldi e talento versando in campo. Guarda le tappe, come battere gli esseri umani al Go, e le applicazioni che erano impossibili da risolvere una decina di anni fa, che sono all’ordine del giorno di oggi, come il riconoscimento delle immagini. Come può non progredire? “

COSA SIGNIFICA INTELLIGENZA PER LO SVILUPPO DELL’IA?
Un’altra risposta è che questi risultati non sono in realtà un buon indicatore di intelligenza. Battere gli esseri umani a scacchi e Go è impressionante, sì, ma cosa importa se il computer più intelligente può essere fuori-strategized, in generale, incapace di risolverele differenze da un bambino o un topo?

Questa è una critica avanzata da AI ricercatore François Chollet, un ingegnere del software di Google e una figura ben nota nella comunità di apprendimento automatico. Chollet è il creatore di Keras, un programma ampiamente utilizzato per lo sviluppo di reti neurali, la spina dorsale di AI contemporanea. Ha anche scritto numerosi libri di testo sulla machine learning e mantiene un popolare feed Twitter dove condivide le sue opinioni in campo.

In un recente documento intitolato ” Sulla misura dell’intelligenza “, Chollet ha anche esposto un’argomentazione secondo cui il mondo dell’intelligenza artificiale deve concentrarsi su ciò che l’intelligenza è e non è. Se i ricercatori vogliono fare progressi verso l’intelligenza artificiale generale , afferma Chollet, devono guardare oltre parametri di riferimento popolari come videogiochi e giochi da tavolo e iniziare a pensare alle abilità che rendono intelligenti gli esseri umani, come la nostra capacità di generalizzare e adattarsi.

In un’intervista via e-mail con The Verge , Chollet ha spiegato i suoi pensieri su questo argomento, spiegando perché crede che i risultati attuali nell’IA siano stati “travisati”, come potremmo misurare l’intelligenza in futuro e perché storie spaventose sull’intelligenza artificiale super intelligente (come raccontata da Elon Musk e altri) hanno una presa ingiustificata sull’immaginazione del pubblico.

Questa intervista è stata leggermente modificata per maggiore chiarezza .

Nella vostra carta, si descrivono due diverse concezioni di intelligenza che hanno plasmato il campo di AI. Uno presenta l’intelligenza come la capacità di eccelle in una vasta gamma di operazioni, mentre l’altra priorità adattabilità e generalizzazione, che è la possibilità per AI di rispondere alle sfide nuove. Quale quadro è un’influenza più grande in questo momento, e quali sono le conseguenze di questo?

Nei primi 30 anni di storia del campo, la visione più influente è stata la prima: l’intelligenza come un insieme di programmi statici e basi di conoscenza esplicite. In questo momento, il pendolo ha oscillato molto lontano nella direzione opposta: il modo dominante di concettualizzare l’intelligenza nella comunità AI è la “tabula rasa” o, per usare una metafora più rilevante, il Purtroppo “fresco-inizializzato rete profonda neurale.” , è una struttura che è stata ampiamente incontrastata e persino ampiamente non esaminata. Queste domande hanno una lunga storia intellettuale – letteralmente decenni – e non vedo molta consapevolezza di questa storia nel campo di oggi, forse perché la maggior parte delle persone che fanno apprendimento profondo oggi è entrato nel campo dopo il 2016.

Non è mai una buona cosa avere tali monopoli intellettuali, soprattutto come risposta a domande scientifiche poco comprese. Limita la serie di domande che vengono poste. Limita lo spazio delle idee che la gente persegue. Penso che i ricercatori stiano iniziando a svegliarsi con questo fatto.

François Chollet è l’inventore del framework Keras di AI e un ingegnere del software presso Google.
Nel tuo documento, affermi anche che l’IA ha bisogno di una migliore definizione di intelligenza per migliorare. In questo momento, si sostengono, i ricercatori si concentrano su analisi comparativa delle prestazioni nei test statici, come battere videogiochi e giochi da tavolo. Perché trovi questa misura di intelligenza carente?

Il fatto è che, una volta scelta una misura, prenderai qualunque scorciatoia disponibile per giocarla. Ad esempio, se imposti il ​​gioco degli scacchi come misura di intelligenza (che abbiamo iniziato a fare negli anni ’70 fino agli anni ’90), finirai con un sistema che gioca a scacchi, e il gioco è fatto. Non c’è motivo di presumere che andrà bene per qualsiasi altra cosa. Finisci con la ricerca dell’albero e minimax, e questo non ti insegna nulla sull’intelligenza umana. Oggi, perseguendo abilità a videogiochi come Dota o StarCraft come proxy per intelligenza generale cade nella stessa identica trappola intellettuale.

Questo forse non è ovvio perché, nell’uomo, abilità e intelligenza sono strettamente correlate. La mente umana può usare la sua intelligenza generale per acquisire abilità specifiche del compito. Un essere umano che è veramente bravo negli scacchi può essere considerato piuttosto intelligente perché, implicitamente, sappiamo che sono partiti da zero e hanno dovuto usare la loro intelligenza generale per imparare a giocare a scacchi. Non sono stati progettati per giocare a scacchi. Quindi sappiamo che potrebbero indirizzare questa intelligenza generale verso molte altre attività e imparare a svolgere queste attività in modo simile. Ecco di cosa tratta la generalità.

I PRESUPPOSTI SULL’INTELLIGENZA UMANA NON DOVREBBERO APPLICARSI ALLE MACCHINE
Ma una macchina non ha tali vincoli. Una macchina può assolutamente essere progettata per giocare a scacchi. Quindi l’inferenza che facciamo per l’uomo – “può giocare a scacchi, quindi deve essere intelligente” – si rompe. Le nostre ipotesi antropomorfe non si applicano più. L’intelligenza generale può generare abilità specifiche per attività, ma non esiste un percorso inverso, dall’abilità specifica per attività alla generalità. Affatto. Quindi, in macchine, abilità è del tutto ortogonale all’intelligenza. È possibile ottenere le competenze arbitrari a compiti arbitrarie fino a quando si può gustare i dati infinita sul compito (o spendere una quantità infinita di risorse di ingegneria). E che ancora non arriva un pollice più vicino alla intelligenza generale.

L’intuizione chiave è che non esiste un compito in cui raggiungere un’alta abilità è un segno di intelligenza. A meno che l’operazione è in realtà un meta-task, che coinvolge l’acquisizione di nuove competenze in un ampio [gamma] di problemi precedentemente sconosciuti. Ed è esattamente ciò che propongo come punto di riferimento dell’intelligence.

I ricercatori del laboratorio di intelligenza artificiale DeepMind orologio come loro affronta AI AlphaStar giocatori umani in StarCraft II. Immagine: DeepMind
Se questi parametri attuali non aiutano a sviluppare intelligenza artificiale con più generalizzata, intelligenza flessibile, perché sono così popolari?

Non c’è dubbio che lo sforzo di battere i campioni umani in specifici videogiochi ben noti è principalmente guidato dalla copertura stampa che questi progetti possono generare. Se il pubblico non era interessato a queste “pietre miliari” appariscente che sono così facili da travisare come passi verso sovrumana intelligenza artificiale generale, i ricercatori sarebbero facendo qualcos’altro.

FOCUS SU AI DI VIDEO GIOCHI PESTAGGIO È “GUIDATO DALLA COPERTURA STAMPA”
Penso che sia un po ‘triste, perché la ricerca deve di rispondere a domande scientifiche aperte, non generando PR. Se avessi deciso di “risolvere” Warcraft IIIad un livello sovrumano utilizzando apprendimento profondo, si può essere abbastanza sicuro che mi metterò lì fino a quando ho accesso a sufficienti talento ingegneristico e potenza di calcolo (che è dell’ordine di decine di milioni di dollari per un compito come questo). Ma una volta che l’avrei fatto, cosa avrei imparato sull’intelligenza o sulla generalizzazione? Bene, niente. Nella migliore delle ipotesi, avrei sviluppato conoscenze ingegneristiche sul potenziamento dell’apprendimento profondo. Quindi non lo vedo davvero come una ricerca scientifica perché non ci insegna nulla che non sapessimo già. Essa non risponde a nessuna questione aperta. Se la domanda era, “Possiamo giocare X ad un livello sovrumano ?,” la risposta è sicuramente: “Sì, a patto che si può generare un campione sufficientemente densa di situazioni di formazione e di dar loro da mangiare in un modello sufficientemente espressiva apprendimento profondo.” abbiamo conosciuto questo per un certo tempo. (Io in realtà detto tanto un po ‘prima della Dota 2 e StarCraft II IA ha raggiunto il livello campione .)

Cosa pensi che i risultati effettivi di questi progetti sono? In che misura i loro risultati vengono fraintesi o travisati?

Una chiara rappresentazione errata che sto vedendo è l’argomentazione secondo cui questi sistemi di gioco altamente qualificati rappresentano progressi reali verso “sistemi di intelligenza artificiale, che possono gestire la complessità e l’incertezza del mondo reale” [come affermato da OpenAI in un comunicato stampa sulla sua Dota OpenAI Five a bot da 2 giocatori]. Loro non. Se lo facessero, sarebbe un’area di ricerca immensamente preziosa, ma semplicemente non è vero. Prendi OpenAI Five, per esempio: non è stato in grado di gestire la complessità di Dota 2in primo luogo perché è stato addestrato con 16 personaggi e non può essere generalizzato al gioco completo, che ha oltre 100 personaggi. E ‘stato addestrato oltre 45.000 anni di gameplay – poi di nuovo, nota come requisiti dei dati di allenamento crescono combinatorio con compito complessità – eppure, il modello risultante si è rivelata molto fragile: giocatori umani non-campione sono stati in grado di trovare le strategie per affidabile batterlo in una questione di giorni dopo l’IA è stato reso disponibile per il pubblico a giocare contro.

Se un giorno vuoi diventare in grado di gestire la complessità e l’incertezza del mondo reale, devi iniziare a fare domande del tipo, che cos’è la generalizzazione? Come si misura e massimizzare generalizzazione nei sistemi di apprendimento? E questo è del tutto ortogonale al lancio di 10 volte più dati e al calcolo su una grande rete neurale in modo da migliorare le sue abilità di una piccola percentuale.

Quindi, quale sarebbe una misura migliore di intelligence per il campo a concentrarsi su?

In breve, dobbiamo smettere di valutare le abilità in compiti che sono noti in precedenza – come gli scacchi o Dota o StarCraft – e invece iniziare a valutare le capacità di acquisizione delle abilità. Questo significa solo usando nuovi compiti che non sono noti al sistema in anticipo, misurando la conoscenza preventiva sul compito che il sistema inizia con, e misurando il campione-efficienza del sistema (che è quanto è necessario i dati per imparare a fare il compito). Meno informazioni (conoscenza ed esperienza precedenti) sono necessarie per raggiungere un determinato livello di abilità, più si è intelligenti. E sistemi di intelligenza artificiale di oggi non sono in realtà molto intelligente a tutti.

Inoltre, penso che la nostra misura di intelligenza dovrebbe rendere umano-somiglianza più esplicito, perché ci possono essere diversi tipi di intelligenza, e simile a quella umana intelligenza è cosa stiamo realmente parlando, implicitamente, quando si parla di intelligenza generale. E che coinvolge cercando di capire cosa gli esseri umani conoscenze pregresse sono nati con. Gli umani imparano in modo incredibilmente efficiente – richiedono solo pochissima esperienza per acquisire nuove abilità – ma non lo fanno da zero. Essi sfruttano conoscenze pregresse innata, oltre ad una vita di competenze e conoscenze accumulate.

[Il mio recente documento] propone un nuovo set di dati di riferimento, ARC, che assomiglia molto a un test di QI. ARC è un insieme di compiti di ragionamento, in cui ogni attività è spiegata attraverso una piccola sequenza di manifestazioni, in genere tre, e si dovrebbe imparare a realizzare il compito da queste poche dimostrazioni. ARC prende la posizione che ogni operazione il sistema viene valutata sulla dovrebbe essere nuovo di zecca e dovrebbe coinvolgere solo la conoscenza di un genere che si inserisce all’interno conoscenza innata dell’uomo. Per esempio, non dovrebbe caratteristica del linguaggio. Attualmente, ARC è completamente risolvibile dagli esseri umani, senza spiegazioni verbali o di formazione preventiva, ma è completamente inaccessibile con qualsiasi tecnica di AI abbiamo provato finora. Questo è un grande segnale lampeggiante che sta succedendo qualcosa lì, che abbiamo bisogno di nuove idee.

Un esempio del tipo di test di intelligenza proposto da Chollet per il suo nuovo set di dati di riferimento ARC. Immagine di François Chollet
Pensi che il mondo AI può continuare a progredire da solo buttare più potenza di calcolo a problemi? Alcuni hanno sostenuto che, storicamente, questo è stato l’approccio più efficace per migliorare le prestazioni. Mentre altri hanno suggerito che stiamo andando a vedere presto rendimenti decrescenti se solo questo cammino.

Questo è assolutamente vero se si sta lavorando su un compito specifico. Lanciare dati più formazione e potenza di elaborazione ad un compito verticale aumenterà le prestazioni su quel compito. Ma si guadagna circa zero comprensione incrementale di come raggiungere la generalità nel campo dell’intelligenza artificiale.

Se si dispone di un numero sufficientemente ampio modello di apprendimento profondo e si allena su una fitta campionamento dello spazio di input-cross-output per un compito, allora sarà imparare a risolvere il compito, qualunque essa sia – Dota , StarCraft , il tuo nome esso. È tremendamente prezioso. Ha applicazioni quasi infinite nei problemi di percezione della macchina. L’unico problema qui è che la quantità di dati di cui hai bisogno è una funzione combinatoria della complessità delle attività, quindi anche attività leggermente complesse possono diventare proibitivamente costose.

Prendi auto a guida autonoma, per esempio. Milioni e milioni di situazioni di allenamento non sono sufficienti per un modello di apprendimento profondo end-to-end per imparare a guidare un’auto in sicurezza. È per questo che, prima di tutto, L5 auto-guida non è ancora lontani. In secondo luogo, i sistemi di guida autonoma più avanzati sono principalmente modelli simbolici che utilizzano il deep learning per interfacciare questi modelli ingegnerizzati manualmente con i dati dei sensori. Se il deep learning potesse generalizzare, nel 2016 avremmo avuto la guida autonoma L5 e avrebbe assunto la forma di una grande rete neurale.

Lo sviluppo di auto a guida autonoma è stato molto più lento di quanto molti abbiano previsto. Foto di Vjeran Pavic / The Verge
Infine, dato che stai parlando di vincoli per gli attuali sistemi di intelligenza artificiale, sembra che valga la pena chiedere l’idea di superintelligenza – la paura che un’intelligenza artificiale estremamente potente possa causare danni estremi all’umanità nel prossimo futuro. Pensi che questi timori sono legittimi?

No, non credo che la narrazione super-intelligenza per essere ben fondata. Non abbiamo mai creato un sistema intelligente autonomo. Non c’è assolutamente alcun segno che saremo in grado di crearne uno nel prossimo futuro. (Questo non è dove sono diretti gli attuali progressi dell’IA.) E non abbiamo assolutamente modo di ipotizzare quali potrebbero essere le sue caratteristiche se finissimo per crearne uno nel lontano futuro. Per usare un’analogia, è un po ‘come chiedere nel 1600: “La balistica sta procedendo piuttosto velocemente! Allora, che cosa se avessimo un cannone che potrebbe spazzare via un’intera città. Come possiamo fare in modo che sarebbe solo uccidere i cattivi?”E ‘una domanda piuttosto mal formati, e dibattendo in assenza di qualsiasi conoscenza del sistema che stiamo parlando di quantità, nella migliore delle ipotesi, ad un argomento filosofico.

“NON ABBIAMO BISOGNO DI SUPERINTELLIGENZA AFFINCHÉ DETERMINATE APPLICAZIONI DI INTELLIGENZA ARTIFICIALE RAPPRESENTINO UN PERICOLO”.
Una cosa su queste paure superintelligenza è che mascherano il fatto che AI ​​ha il potenziale per essere piuttosto pericoloso oggi. Non abbiamo bisogno di superintelligenza perché determinate applicazioni di intelligenza artificiale rappresentino un pericolo. Ho scritto circa l’uso di intelligenza artificiale per implementare sistemi di propaganda algoritmici. Altri hanno scritto su pregiudizi algoritmica, l’uso di intelligenza artificiale in sistemi d’arma, o circa AI come strumento di controllo totalitario.

C’è una storia sull’assedio di Costantinopoli nel 1453. Mentre la città stava combattendo contro l’esercito ottomano, i suoi studiosi e sovrani stavano discutendo su quale potesse essere il sesso degli angeli. Bene, più energia e attenzione dedichiamo a discutere del sesso degli angeli o dell’allineamento di valore di ipotetici IA superintelligenti, meno abbiamo per affrontare i problemi reali e urgenti che la tecnologia AI pone oggi. C’è un leader tecnologico noto che ama raffigurano superintelligente AI come una minaccia esistenziale per l’umanità. Bene, mentre queste idee stanno afferrando i titoli, non stai discutendo le questioni etiche sollevate dallo spiegamento di sistemi di guida autonoma insufficientemente precisi sulle nostre strade che causano incidenti e perdita della vita.

Se si accetta queste critiche – che non ci sia attualmente una preparazione tecnica per queste paure – perché pensi che la narrazione superintelligenza è popolare?

In definitiva, penso che sia una storia buona, e le persone sono attratti da buone storie. Non è una coincidenza che assomigli a storie religiose escatologiche perché le storie religiose si sono evolute e sono state selezionate nel tempo per risuonare potentemente con le persone e diffondersi efficacemente. Per la stessa ragione, si trova anche questo racconto nel film di fantascienza e romanzi. Il motivo per cui è usato nella finzione, il motivo per cui assomiglia a narrazioni religiose, e il motivo per cui è diventato un modo per capire dove è diretta l’IA sono tutti uguali: è una bella storia. E le persone hanno bisogno di storie per dare un senso al mondo. C’è molto di più la domanda di tali storie che la domanda per capire la natura di intelligenza o di capire ciò che spinge il progresso tecnologico.

Di ihal