DeepMind ha tranquillamente aperto tre nuove impressionanti strutture per l’apprendimento del rinforzo
Tre nuove versioni che aiuteranno i ricercatori a semplificare l’implementazione di programmi di apprendimento di rinforzo
L’apprendimento approfondito di rinforzo (DRL) è stato al centro di alcune delle più grandi scoperte dell’intelligenza artificiale (AI) negli ultimi anni. Tuttavia, nonostante tutti i suoi progressi, i metodi DRL rimangono incredibilmente difficili da applicare nelle soluzioni tradizionali data la mancanza di strumenti e librerie. Di conseguenza, il DRL rimane principalmente un’attività di ricerca che non ha visto molta adozione nelle soluzioni di machine learning del mondo reale. Affrontare questo problema richiede strumenti e framework migliori. Tra le attuali generazioni di leader dell’intelligenza artificiale (AI), DeepMind è l’unica azienda che ha fatto di più per promuovere la ricerca e lo sviluppo di DRL. Di recente, la filiale Alphabet ha rilasciato una serie di nuove tecnologie open source che possono aiutare a semplificare l’adozione dei metodi DRL.
Come nuova tecnica di deep learning, l’adozione del DRL deve affrontare sfide oltre la semplice implementazione di algoritmi. Sono necessari set di dati di formazione, ambienti, strumenti di monitoraggio-ottimizzazione ed esperimenti ben progettati per semplificare l’adozione delle tecniche DRL. Ciò è particolarmente vero nel caso di DRL dato che la sua meccanica differisce dai metodi di apprendimento automatico tradizionali.Gli agenti DRL tentano di padroneggiare un’attività per tentativi ed errori in un determinato ambiente. In tale contesto, la robustezza degli ambienti e degli esperimenti gioca un ruolo primordiale nelle conoscenze sviluppate da un agente DRL.
DRL è stata la pietra angolare degli sforzi di DeepMind per far avanzare l’IA. A partire dal famoso AlphaGo e proseguendo con importanti traguardi in settori come l’assistenza sanitaria, la ricerca ecologica e, naturalmente, il gioco, DeepMind ha applicato i metodi DRL alle principali sfide dell’IA. Per raggiungere questi traguardi, DeepMind ha dovuto costruire molti strumenti e framework proprietari che semplificano la formazione, la sperimentazione e la gestione degli agenti DRL su vasta scala. Molto silenziosamente, DeepMind ha aperto molte di queste tecnologie in modo che altri ricercatori possano usarle per far avanzare lo stato attuale dei metodi DRL. Recentemente: DeepMind ha aperto tre diversi stack DRL che meritano un’esplorazione più approfondita.
OpenSpiel
I giochi svolgono un ruolo di primo piano nella formazione degli agenti DRL. Come nessun altro set di dati, i giochi sono intrinsecamente basati su meccanismi di prova e ricompensa che possono essere utilizzati per addestrare un agente DRL. Tuttavia, come puoi immaginare, gli ambienti di gioco sono tutt’altro che banali da assemblare.
OpenSpiel è una raccolta di ambienti e algoritmi per la ricerca nell’apprendimento del rinforzo generale e la ricerca / pianificazione nei giochi. Lo scopo di OpenSpiel è di promuovere l’apprendimento generale del rinforzo multiagente in molti tipi di gioco, in modo simile al gioco generale, ma con una forte enfasi sull’apprendimento e non in forma di competizione. La versione attuale di OpenSpiel contiene implementazioni di oltre 20 giochi diversi di vario tipo (informazioni perfette, mossa simultanea, informazioni imperfette, giochi a griglia, un gioco di aste e diversi giochi in forma normale / matrice.
L’implementazione di base di OpenSpiel si basa su C ++ con collegamenti Python che ne facilitano l’adozione in diversi framework di deep learning. Il framework incorpora un portafoglio di giochi che consente agli agenti DRL di padroneggiare comportamenti cooperativi e competitivi. Allo stesso modo, OpenSpiel include un portafoglio diversificato di algoritmi DRL tra cui ricerca, ottimizzazione e agente singolo.
SpriteWorld
Alcuni mesi fa, DeepMind ha pubblicato un documento di ricerca molto impressionante che introduceva un agente SeaRch (COBRA) basato sugli oggetti curiosi che utilizzava l’apprendimento per rinforzo per riconoscere gli oggetti in un determinato ambiente . L’agente COBRA è stato addestrato utilizzando una serie di giochi bidimensionali in cui le figure potevano muoversi liberamente. L’ambiente utilizzato per addestrare COBRA era noto come SpriteWorld ed è un altro dei recenti contributi open source di DeepMind.
Spriteworld è un ambiente RL basato su pitone che consiste in un’arena bidimensionale con forme semplici che possono essere spostate liberamente. Più specificamente, SpriteWorld è un’arena quadrata bidimensionale con un numero variabile di sprite colorate, posizionate liberamente e rese con occlusione ma senza collisioni. L’ambiente SpriteWorld si basa su una serie di caratteristiche chiave:
· L’arena multi-oggetto riflette la composizionalità del mondo reale, con scene di oggetti ingombra che possono condividere caratteristiche ma muoversi indipendentemente. Ciò fornisce anche modi per testare la robustezza di caratteristiche / oggetti irrilevanti per attività e generalizzazione combinatoria.
· La struttura dello spazio d’azione continuo click-and-push riflette la struttura dello spazio e del movimento nel mondo. Inoltre, consente all’agente di spostare qualsiasi oggetto visibile in qualsiasi direzione.
· La nozione di un oggetto non viene fornita in alcun modo privilegiato (ad es. Nessun componente specifico dello spazio d’azione) e può essere completamente scoperta dagli agenti.
SpriteWorld addestra ogni agente DRL su tre compiti principali:
· Rilevazione degli obiettivi. L’agente deve portare una serie di oggetti target (identificabili da alcune funzionalità, ad esempio “verde”) in una posizione nascosta sullo schermo, ignorando gli oggetti distrattori (ad esempio quelli che non sono verdi)
· Ordinamento. L’agente deve portare ciascun oggetto in una posizione obiettivo in base al colore dell’oggetto.
· Clustering. L’agente deve disporre gli oggetti in gruppi in base al loro colore.
bSuite
La Suite di comportamento per l’apprendimento per rinforzo (bsuite) tenta di essere MNIST dell’apprendimento per rinforzo. In particolare, bsuite è una raccolta di esperimenti progettati per evidenziare gli aspetti chiave della scalabilità degli agenti. Questi esperimenti racchiudono questioni fondamentali, come “esplorazione” o “memoria” in un modo che può essere facilmente testato e ripetuto. In particolare, bsuite ha due obiettivi principali:
Per raccogliere problemi chiari, informativi e scalabili che catturano i problemi chiave nella progettazione di algoritmi di apprendimento efficienti e generali.
Studiare il comportamento degli agenti attraverso le loro prestazioni su questi parametri condivisi.
L’attuale implementazione di bsuite automatizza l’esecuzione di questi esperimenti in diversi ambienti e raccoglie le metriche corrispondenti che possono semplificare la formazione degli agenti DRL.
Come puoi vedere, DeepMind è stato molto attivo nello sviluppo di nuove tecnologie di apprendimento di rinforzo. OpenSpiel, SpriteWorld e bsuite possono essere incredibili risorse per i team di ricerca che intraprendono il loro percorso di apprendimento di rinforzo.