Ambizioni di diventare GitHub per l’apprendimento automatico? Hugging Face aggiunge Decision Transformer alla sua libreria
Negli ultimi anni, l’azienda ha reso open source una serie di librerie e strumenti, in particolare nello spazio della PNL.
Hugging Face è una delle aziende più promettenti al mondo. È destinato a raggiungere un’impresa unica: diventare GitHub per l’apprendimento automatico. Negli ultimi anni, l’azienda ha reso open source una serie di librerie e strumenti, in particolare nello spazio della PNL. Ora, l’azienda ha integrato Decision Transformer, un metodo di apprendimento per rinforzo offline, nella libreria dei trasformatori e in Hugging Face Hub.
Cosa sono i trasformatori decisionali
I trasformatori decisionali sono stati introdotti per la prima volta da Chen L. e dal suo team nel documento “Decision Transformer: Reinforcement Learning via Sequence Modelling”. Questo documento ha introdotto questo framework che astrae l’apprendimento per rinforzo come un problema di modellazione di sequenze. A differenza degli approcci precedenti, i Decision Transformers producono le azioni ottimali sfruttando un Transformer mascherato in modo causale. Un trasformatore di decisione può generare azioni future che ottengono il rendimento desiderato condizionando un modello autoregressivo sulla ricompensa desiderata, sugli stati passati e sulle azioni. Gli autori hanno concluso che, nonostante il design semplice di questo trasformatore, corrisponde, addirittura supera, le prestazioni del modello all’avanguardia e le linee di base dell’apprendimento per rinforzo offline gratuito su Atari, OpenAI Gym e attività Key-to-Door.
Architettura del trasformatore di decisione
L’idea di utilizzare un algoritmo di modellazione di sequenza è che invece di addestrare una politica utilizzando metodi di rinforzo che suggerirebbero un’azione per massimizzare il rendimento, i trasformatori di decisione generano azioni future sulla base di una serie di parametri desiderati. Si tratta di un cambiamento nel paradigma dell’apprendimento per rinforzo poiché l’utente utilizza una modellazione della traiettoria generativa per sostituire gli algoritmi di apprendimento per rinforzo convenzionali. I passaggi importanti coinvolti in questo sono: alimentare gli ultimi K passaggi temporali nel Trasformatore di decisione con tre input (ritorno all’inizio, stato, azione); incorporare i token con un livello lineare (se lo stato è un vettore) o un codificatore CNN se è un frame; elaborazione degli input tramite il modello GPT-2 che prevede azioni future attraverso la modellazione autoregressiva.
Apprendimento per rinforzo offline
L’apprendimento per rinforzo è un framework per costruire agenti decisionali che apprendono il comportamento ottimale interagendo con l’ambiente tramite il metodo per tentativi ed errori. L’obiettivo finale di un agente è massimizzare la ricompensa cumulativa chiamata ritorno. Si può dire che l’apprendimento per rinforzo si basa sull’ipotesi della ricompensa e tutti gli obiettivi sono la massimizzazione della ricompensa cumulativa attesa. La maggior parte delle tecniche di apprendimento per rinforzo sono orientate nell’impostazione dell’apprendimento online, in cui gli agenti interagiscono con l’ambiente e raccolgono informazioni utilizzando le politiche attuali e gli schemi di esplorazione per trovare aree con premi più elevati. Lo svantaggio di questo metodo è che l’agente deve essere addestrato direttamente nel mondo reale o avere un simulatore. Nel caso in cui non fosse disponibile un simulatore, sarebbe necessario costruirlo, il che è un processo molto complesso.
Credito: faccia che abbraccia
Questo problema è presente nel caso dell’apprendimento per rinforzo offline. In questo caso, l’agente utilizza solo i dati raccolti da altri agenti o dimostrazioni umane senza interagire con l’ambiente. L’apprendimento per rinforzo offline apprende le competenze solo da set di dati raccolti in precedenza senza interazione con l’ambiente attivo e fornisce un modo per utilizzare set di dati raccolti in precedenza da fonti come dimostrazioni umane, esperimenti precedenti e soluzioni specifiche del dominio.
GitHub per l’apprendimento automatico
Il viaggio di avvio di Hugging Face è stato a dir poco fenomenale. L’azienda, nata come chatbot, ha ottenuto un’enorme attenzione da parte del settore in un periodo molto breve; grandi aziende come Apple, Monzo e Bing utilizzano le loro librerie nella produzione. La libreria di trasformatori di Hugging Face è supportata da PyTorch e TensorFlow e offre migliaia di modelli pre-addestrati per attività come la classificazione del testo, il riepilogo e il recupero delle informazioni.
Nel settembre dello scorso anno, l’azienda ha rilasciato Datasets, una community library per la PNL contemporanea , che contiene 650 dataset univoci e più di 250 contributori. Con Datasets, l’azienda mira a standardizzare l’interfaccia utente finale, il controllo delle versioni e la documentazione. Ciò si adatta bene alla visione più ampia dell’azienda di democratizzare l’IA, che estenderebbe i vantaggi delle tecnologie emergenti alle tecnologie più piccole, che altrimenti sarebbero concentrate in poche mani potenti.