In un articolo pubblicato sulla rivista Science alla fine dell’anno scorso, DeepMind della società madre di Google Alphabet ha dettagliato AlphaZero , un sistema di intelligenza artificiale che potrebbe insegnare a se stesso a padroneggiare il gioco degli scacchi, una variante giapponese degli scacchi chiamata shogi e il gioco da tavolo cinese Go. In ogni caso, ha battuto un campione del mondo, dimostrando un talento per l’apprendimento di giochi per due persone con informazioni perfette, vale a dire giochi in cui qualsiasi decisione è influenzata da tutti gli eventi precedenti.

Ma AlphaZero aveva il vantaggio di conoscere le regole dei giochi a cui era incaricato di giocare. Alla ricerca di un modello di apprendimento automatico performante in grado di insegnare a se stesso le regole, un team di DeepMind ha ideato MuZero, che combina una ricerca basata su albero (dove un albero è una struttura di dati utilizzata per individuare le informazioni all’interno di un set) con un modello appreso . Come descritto in un documento di Nature pubblicato oggi, MuZero prevede le quantità più rilevanti per la pianificazione del gioco in modo tale da ottenere prestazioni leader del settore su 57 diversi giochi Atari e abbinare le prestazioni di AlphaZero in Go, scacchi e shogi.

Dave Silver, che guida il gruppo di apprendimento per rinforzo presso DeepMind, afferma che MuZero apre la strada ai metodi di apprendimento in una serie di domini del mondo reale, in particolare quelli privi di un simulatore o di regole dinamiche. “Pensiamo che questo sia davvero importante per arricchire ciò che l’AI può effettivamente fare perché il mondo è un posto disordinato. Non è noto: nessuno ci fornisce questo fantastico regolamento che dice: “Oh, questo è esattamente come funziona il mondo” “, ha detto a VentureBeat in un’intervista telefonica la scorsa settimana. “Se vogliamo che la nostra IA vada là fuori nel mondo e sia in grado di pianificare e guardare avanti nei problemi in cui nessuno ci dà il regolamento, ne abbiamo davvero, davvero bisogno.”

Apprendimento per rinforzo basato su modelli
La capacità di pianificare consente agli esseri umani di risolvere i problemi e prendere rapidamente decisioni sul futuro. Nel dominio dell’IA, i ricercatori hanno tentato di replicare questo utilizzando approcci chiamati ricerca dell’albero lookahead o pianificazione basata su modelli. I sistemi che utilizzano la ricerca anticipata, come AlphaZero, hanno ottenuto un notevole successo nei giochi classici come la dama, gli scacchi e persino il poker.

Ma la ricerca anticipata richiede la conoscenza delle dinamiche di un ambiente, come le regole di un gioco o un accurato simulatore di fisica. I sistemi basati su modelli mirano ad affrontare questo problema apprendendo un modello dettagliato di un ambiente e utilizzandolo per la pianificazione. Ma la complessità della modellazione ha storicamente significato che questi algoritmi non sono stati in grado di competere in domini visivamente ricchi.

Inserisci MuZero, che combina un modello con la ricerca dell’albero lookahead di AlphaZero. Invece di provare a modellare un intero ambiente utilizzando un algoritmo, MuZero modella solo gli aspetti che ritiene importanti per il processo decisionale.

MuZero riceve osservazioni, ovvero immagini di un tabellone Go o di uno schermo Atari, e le trasforma in una rappresentazione matematica chiamata “stato nascosto”. Questo stato nascosto viene aggiornato iterativamente da un processo che riceve lo stato precedente e un’ipotetica azione successiva. Ad ogni passo, il modello prevede la politica (ad esempio, la mossa per giocare), la funzione del valore (ad esempio, il vincitore previsto) e la ricompensa immediata (ad esempio, i punti segnati giocando una mossa).

Intuitivamente, MuZero inventa internamente regole o dinamiche di gioco che portano a una pianificazione accurata.

Come spiegano i ricercatori di DeepMind, una forma di apprendimento per rinforzo – la tecnica al centro di MuZero e AlphaZero, in cui i premi guidano un agente dell’IA verso obiettivi – coinvolge i modelli. Questo modulo modella un dato ambiente come un passaggio intermedio, utilizzando un modello di transizione di stato che prevede il passaggio successivo e un modello di ricompensa che anticipa la ricompensa.

L’apprendimento per rinforzo basato su modello si concentra comunemente sulla modellazione diretta del flusso di osservazione a livello di pixel, ma questo livello di granularità è computazionalmente costoso in ambienti su larga scala. In effetti, nessun metodo precedente ha costruito un modello che faciliti la pianificazione in domini visivamente complessi come Atari. I risultati sono in ritardo rispetto a metodi privi di modelli ben sintonizzati, anche in termini di efficienza dei dati.

Per MuZero, DeepMind ha invece perseguito un approccio incentrato sulla previsione end-to-end di una funzione di valore, in cui un algoritmo viene addestrato in modo che la somma attesa dei premi corrisponda al valore atteso rispetto alle azioni del mondo reale. Il sistema non ha la semantica dello stato dell’ambiente, ma genera semplicemente previsioni di politica, valore e ricompensa, che un algoritmo simile alla ricerca di AlphaZero (sebbene generalizzato per consentire domini a agente singolo e ricompense intermedie) utilizza per produrre una politica raccomandata e un valore stimato . Questi a loro volta vengono utilizzati per informare un’azione e i risultati finali nelle partite giocate.

Formazione e sperimentazione
Il team di DeepMind ha applicato MuZero ai classici giochi da tavolo Go, scacchi e shogi come punti di riferimento per problemi di pianificazione impegnativi ea tutti i 57 giochi nell’ambiente di apprendimento Atari open source come punti di riferimento per domini di apprendimento di rinforzo “visivamente complessi”. Hanno addestrato il sistema per cinque passaggi ipotetici e un milione di mini-batch (cioè piccoli lotti di dati di allenamento) di dimensione 2.048 nei giochi da tavolo e dimensione 1.024 in Atari, che ammontavano a 800 simulazioni per mossa per ogni ricerca in Go, scacchi, e shogi e 50 simulazioni per ogni ricerca ad Atari.

Per quanto riguarda Go, MuZero ha leggermente superato le prestazioni di AlphaZero nonostante utilizzi meno calcoli complessivi, che secondo i ricercatori è la prova che potrebbe aver acquisito una comprensione più profonda della sua posizione. Per quanto riguarda Atari, MuZero ha raggiunto un nuovo stato dell’arte per i punteggi normalizzati medi e mediani nei 57 giochi, superando il precedente metodo all’avanguardia (R2D2) in 42 su 57 giochi e superando il miglior modello precedente approccio basato su tutti i giochi.

I ricercatori hanno quindi valutato una versione di MuZero – MuZero Reanalyze – ottimizzata per una maggiore efficienza del campione, che hanno applicato a 75 giochi Atari utilizzando da 200 milioni a 20 miliardi di frame di esperienza per gioco. MuZero Reanalyze potrebbe utilizzare ripetutamente il suo modello appreso per migliorare la sua pianificazione piuttosto che raccogliere nuovi dati dall’ambiente.

Il team riferisce che MuZero Reanalyze ha gestito un punteggio normalizzato mediano del 731% rispetto ai precedenti approcci privi di modello all’avanguardia IMPALA, Rainbow e LASER, che hanno ricevuto rispettivamente il 192%, il 231% e il 431%. Il team osserva inoltre che MuZero Reanalyze ha richiesto un tempo di formazione notevolmente inferiore, 12 ore per allenarsi rispetto ai 10 giorni di Rainbow.

“In termini di risorse, se ti interessa quanto devi interagire con l’ambiente, il modello che MuZero apprende ci consente in realtà di apprendere un’attività in modo molto più efficiente”, ha detto a VentureBeat l’ingegnere software dello staff di DeepMind Julian Schrittwieser. “Fondamentalmente, l’idea è che si possa guardare indietro all’esperienza passata e quindi utilizzare il modello per ripianificare – rianalizzare – questi dati, in modo che MuZero possa apprendere ripetutamente sempre di più dagli stessi dati. Questo è molto importante se vuoi affrontare i problemi del mondo reale, poiché spesso hanno pochissimi dati “.

Infine, nel tentativo di comprendere meglio il ruolo svolto dal modello in MuZero, i coautori si sono concentrati su Go e Ms. Pac-Man. Hanno confrontato la ricerca in AlphaZero utilizzando un modello perfetto con le prestazioni di ricerca in MuZero utilizzando un modello appreso e hanno scoperto che MuZero corrispondeva alle prestazioni del modello perfetto anche quando si intraprendono ricerche più grandi di quelle per cui è stato addestrato. In effetti, con solo sei o sette simulazioni per mossa – meno del numero di simulazioni per mossa che è sufficiente per coprire tutte le otto azioni possibili in Ms. Pac-Man – MuZero ha imparato una politica efficace e “ha migliorato rapidamente”.

Con Go, i risultati hanno mostrato che la forza di gioco di MuZero è aumentata di oltre 1000 Elo, una misura dell’abilità relativa di un giocatore, poiché i ricercatori hanno aumentato il tempo per mossa da un decimo di secondo a 50 secondi. (Questa è più o meno la differenza tra un forte giocatore dilettante e un giocatore professionista di prim’ordine.) Questo suggerisce che MuZero può generalizzare tra azioni e situazioni e non ha bisogno di cercare in modo esaustivo tutte le possibilità per imparare in modo efficace.

Applicazioni del mondo reale
Nei prossimi mesi, DeepMind intende concentrarsi sull’identificazione di potenziali applicazioni commerciali per MuZero e sistemi di apprendimento per rinforzo basati su modelli simili. Uno potrebbe essere il traffico Internet, che Silver notes è dominato dallo streaming video. (Si stima che i video rappresentassero circa l’80% di tutta la larghezza di banda dei consumatori nel 2019). Le clip vengono compresse tramite l’uso di codec, che codificano e decodificano flussi di dati digitali, e questi codec hanno parametri che devono essere regolati per diverse categorie di video.

“Se riesci a comprimere i video e renderli più piccoli, puoi avere enormi risparmi su tutto il traffico Internet”, ha detto Silver. “Questo è qualcosa a cui possiamo applicare i nostri algoritmi di apprendimento e avere molte delle caratteristiche del mondo reale perché non sai mai cosa vedrai dopo nel video. Questo tipo di progetto è solo un esempio in cui stiamo iniziando a vedere risultati iniziali piuttosto promettenti “.

Oltre a questo, DeepMind prevede che MuZero risolva i problemi in scenari del mondo reale in cui le caratteristiche di un particolare ambiente sono sconosciute, come nella medicina personalizzata e nella ricerca e soccorso. Questo non significa che MuZero sia privo di limitazioni: a causa della complessità, non può modellare situazioni di informazioni imperfette in cui le decisioni devono essere prese contemporaneamente e più persone devono bilanciare i possibili risultati quando prendono una decisione, come nel gioco da tavolo Diplomacy o nel gioco di carte Hanabi. (Per coincidenza, DeepMind sta sviluppando una famiglia separata di algoritmi per affrontare la diplomazia e configurazioni simili ad essa.) Ma Silver crede che anche nel suo stato attuale, MuZero rappresenti un importante progresso nel campo dell’IA e dell’apprendimento automatico, in particolare per quanto riguarda il rinforzo apprendimento.

“Quello che abbiamo fatto è prendere algoritmi progettati per funzionare con una perfetta conoscenza delle regole del gioco, portare via la conoscenza delle regole e impostare questo algoritmo là fuori per imparare per tentativi ed errori, quindi sta giocando e sperimentando se vince o perde “, ha detto Silver. “Nonostante abbia portato via questa conoscenza, MuZero impara a ottenere prestazioni sovrumane con la stessa rapidità con cui le versioni originali dell’algoritmo erano fornite con questa conoscenza perfetta. Per me, da un punto di vista scientifico, questo è un vero cambiamento, qualcosa che ci permette di applicare queste cose a una classe molto più ampia di problemi del mondo reale di quanto siamo stati in grado di fare in passato “.

Di ihal