MuZero di DeepMind è pronto per il mondo reale?
Dall’inizio della produzione su una parte del traffico in tempo reale di YouTube, abbiamo dimostrato una riduzione media del bitrate del 4% su un set di video ampio e diversificato.
 
Nel 2016, AlphaGo di DeepMind ha sconfitto il 18 volte campione del mondo di Go, Lee Sedol, uno spartiacque nell’evoluzione dell’IA. I programmi per computer di DeepMind come AlphaGo, AlphaZero, AlphaStar, Player of Games e MuZero hanno superato le prestazioni a livello umano nei giochi Atari e nei giochi da tavolo come Go, Chess e Shogi. Ora, DeepMind sta facendo un salto di qualità, uscendo dai domini di ricerca e nel mondo reale.

MuZero , con la sua capacità di padroneggiare diversi giochi con poche conoscenze predefinite, è un passo significativo nella ricerca di algoritmi generici da parte di DeepMind. Il programma per computer sfrutta l’apprendimento per rinforzo per elaborare strategie vincenti in ambienti inesplorati. 

RL di MuZero per il processo decisionale sequenziale

La pianificazione efficace in domini sconosciuti e complessi è stata una sfida nell’intelligenza artificiale. MuZero risolve questo problema imparando un modello che si concentra solo sugli aspetti più importanti dell’ambiente per la pianificazione. L’algoritmo di apprendimento per rinforzo basato su modello sfrutta la potente ricerca dell’albero di previsione di AlphaZero per una pianificazione ottimale. MuZero ha stabilito un nuovo risultato allo stato dell’arte sul benchmark Atari e allo stesso tempo eguaglia le prestazioni di AlphaZero nelle classiche sfide di pianificazione di Go, scacchi e shogi.

L’approccio unico di MuZero è la sua capacità di modellare solo gli aspetti importanti per il processo decisionale dell’agente e non l’intero ambiente. Modella tre elementi critici attraverso un framework di deep learning: 

Il valore che determina quanto è buona la posizione attuale
La politica che determina la migliore azione da intraprendere
La ricompensa che determina la bontà dell’azione intrapresa
Invece di raccogliere nuovi dati da ciascun ambiente, MuZero può utilizzare ripetutamente questo modello appreso per migliorare la sua pianificazione. 

MuZero per l’ottimizzazione dei video di YouTube

Per testare la capacità di MuZero di prendere decisioni in scenari del mondo reale, Deepmind ha collaborato con YouTube per affrontare il problema della compressione nello streaming video. MuZero ha migliorato lo stato dell’arte nella compressione video. “Dall’inizio della produzione su una parte del traffico live di YouTube, abbiamo dimostrato una riduzione media del bitrate del 4% su una serie di video ampia e diversificata”, ha affermato  il team .

YouTube utilizza il codec per la compressione video. Prende più decisioni per ogni fotogramma video ed è responsabile della compressione del video alla sua fonte, trasmettendolo allo spettatore e decomprimendolo nuovamente durante la riproduzione. Il codec è progettato a mano e funziona in background di video on demand, videochiamate, videogiochi e VR. Deepmind ha esplorato il ruolo degli algoritmi di apprendimento RL nell’aiutare i problemi decisionali sequenziali nei codec, in particolare la versione open source, libvpx, del codec VP9. VP9 è un formato di codifica video aperto sviluppato da Google. La capacità di MuZero di apprendere un modello dal suo ambiente per pianificare le decisioni torna utile qui.

Il bitrate di VP9 varia da 0,20 mbit/s a 480 mbit/s su 14 livelli. Il bitrate indica il numero di uno e di zero necessari per inviare un fotogramma video, gestendo il calcolo e la larghezza di banda per archiviare e servire i video. Il livello di bitrate influisce ulteriormente sul tempo di buffering e sull’utilizzo dei dati. Il parametro di quantizzazione di VP9 ottimizza il codec e determina il livello di compressione necessario in ogni frame. L’algoritmo di selezione QP alloca QP per massimizzare la qualità video complessiva mentre determina come il valore QP di un fotogramma video influisce sull’allocazione del bitrate del resto dei fotogrammi video. RL di Deepmind svolge il ruolo di decisore sequenziale in questo contesto. Supera il problema dell’apprendimento di una politica di controllo della velocità per selezionare i parametri di quantizzazione (QP) nel processo di codifica di libvpx. 

Perché MuZero

Nello scenario reale dei set video, il problema ambientale ha una portata enorme. Gli utenti caricano video di varie dimensioni e qualità su YouTube, rendendo necessario che un agente di intelligenza artificiale generalizzi sui media. MuZero combina il potere della ricerca con la sua capacità di apprendere un modello dell’ambiente per pianificare di conseguenza durante la presa di decisioni sequenziali per i codec.


MuZero-RC che sostituisce i frame sul meccanismo di controllo della velocità predefinito di VP9

Il meccanismo di auto-competizione per il MuZero Rate-Controller 

I ricercatori hanno creato un meccanismo di auto-competizione per MuZero per rafforzare la sua capacità di affrontare le sfide ambientali. Il processo converte i complessi obiettivi video della compressione video in un segnale WIN o LOSS confrontando le prestazioni attuali dell’agente con le prestazioni storiche. In sostanza, il team ha convertito i complicati requisiti del codec in un semplice segnale per l’ottimizzazione dell’agente. Ciò consente a MuZero di apprendere la dinamica della codifica video, in base alla quale alloca i bit. Il MuZero Rate-Controller è stato creato per ridurre il bitrate senza degradare la qualità del video. 

MuZero è stato valutato rispetto all’implementazione del controllo della velocità VBR a due passaggi di libvpx. Il campione utilizzato include 3062 video clip dal set di dati YouTube UGC. MuZero-RC ha ottenuto una riduzione media del 6,28% del bitrate rispetto alla linea di base. Ha anche dimostrato una migliore soddisfazione del vincolo di bitrate e ora può essere facilmente distribuito in libvpx tramite l’API SimpleEncode. 

Cosa c’è in serbo

Il team prevede di utilizzare MuZero per applicazioni oltre la compressione video e in ambienti di ricerca per agenti RL per risolvere problemi del mondo reale. La selezione del QP è solo una delle decisioni principali nel processo di codifica. Tuttavia, in futuro, il team esplorerà un singolo algoritmo in grado di apprendere e prendere diverse decisioni di codifica per un compromesso ottimale tra distorsione del tasso. L’obiettivo del team è creare un unico algoritmo per ottimizzare migliaia di sistemi del mondo reale e rendere i sistemi informatici più veloci, automatizzati e meno intensivi. 

Di ihal