Risolvere un mistero di apprendimento automatico
Un nuovo studio mostra come modelli linguistici di grandi dimensioni come GPT-3 possono apprendere una nuova attività da pochi esempi, senza la necessità di nuovi dati di addestramento

 

I modelli di linguaggio di grandi dimensioni come GPT-3 di OpenAI sono enormi reti neurali in grado di generare testo simile a quello umano, dalla poesia al codice di programmazione. Addestrati utilizzando raccolte di dati Internet, questi modelli di apprendimento automatico prendono una piccola parte del testo di input e quindi prevedono il testo che probabilmente verrà dopo.

Ma non è tutto ciò che questi modelli possono fare. I ricercatori stanno esplorando un curioso fenomeno noto come apprendimento contestuale, in cui un modello linguistico di grandi dimensioni impara a svolgere un compito dopo aver visto solo pochi esempi, nonostante non sia stato addestrato per tale compito. Ad esempio, qualcuno potrebbe fornire al modello diverse frasi di esempio e i propri sentimenti (positivi o negativi), quindi suggerirgli una nuova frase e il modello può fornire il sentimento corretto.

In genere, un modello di apprendimento automatico come GPT-3 dovrebbe essere riaddestrato con nuovi dati per questa nuova attività. Durante questo processo di addestramento, il modello aggiorna i suoi parametri mentre elabora nuove informazioni per apprendere l’attività. Ma con l’apprendimento contestuale, i parametri del modello non vengono aggiornati, quindi sembra che il modello apprenda una nuova attività senza apprendere nulla.

Gli scienziati del MIT, di Google Research e della Stanford University stanno cercando di svelare questo mistero. Hanno studiato modelli molto simili a modelli di linguaggio di grandi dimensioni per vedere come possono apprendere senza aggiornare i parametri.

I risultati teorici dei ricercatori mostrano che questi enormi modelli di rete neurale sono in grado di contenere modelli lineari più piccoli e più semplici sepolti al loro interno. Il modello grande potrebbe quindi implementare un semplice algoritmo di apprendimento per addestrare questo modello lineare più piccolo a completare una nuova attività, utilizzando solo le informazioni già contenute nel modello più grande. I suoi parametri rimangono fissi.

Un passo importante verso la comprensione dei meccanismi alla base dell’apprendimento contestuale, questa ricerca apre la porta a una maggiore esplorazione degli algoritmi di apprendimento che questi grandi modelli possono implementare, afferma Ekin Akyürek, uno studente laureato in informatica e autore principale di un articolo che esplora questo fenomeno . Con una migliore comprensione dell’apprendimento nel contesto, i ricercatori potrebbero consentire ai modelli di completare nuove attività senza la necessità di costose riqualificazioni.

“Di solito, se si desidera mettere a punto questi modelli, è necessario raccogliere dati specifici del dominio ed eseguire un’ingegnerizzazione complessa. Ma ora possiamo semplicemente dargli un input, cinque esempi, e realizza ciò che vogliamo. Quindi l’apprendimento contestuale è un fenomeno piuttosto eccitante”, afferma Akyürek.

Ad unirsi ad Akyürek sul giornale ci sono Dale Schuurmans, ricercatore presso Google Brain e professore di informatica all’Università di Alberta; così come gli autori senior Jacob Andreas, X Consortium Assistant Professor presso il Dipartimento di Ingegneria Elettrica e Informatica del MIT e membro del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL); Tengyu Ma, assistente professore di informatica e statistica a Stanford; e Danny Zhou, scienziato principale e direttore della ricerca presso Google Brain. La ricerca sarà presentata alla Conferenza Internazionale sulle Rappresentazioni dell’Apprendimento.

Un modello nel modello

Nella comunità di ricerca sull’apprendimento automatico, molti scienziati sono giunti alla convinzione che i grandi modelli linguistici possano eseguire l’apprendimento contestuale a causa del modo in cui vengono addestrati, afferma Akyürek.

Ad esempio, GPT-3 ha centinaia di miliardi di parametri ed è stato addestrato leggendo enormi quantità di testo su Internet, dagli articoli di Wikipedia ai post di Reddit. Quindi, quando qualcuno mostra gli esempi modello di una nuova attività, probabilmente ha già visto qualcosa di molto simile perché il suo set di dati di addestramento includeva testo da miliardi di siti web. Ripete gli schemi che ha visto durante l’allenamento, piuttosto che imparare a svolgere nuovi compiti.

Akyürek ha ipotizzato che gli studenti contestualizzati non stiano solo abbinando modelli visti in precedenza, ma stiano effettivamente imparando a svolgere nuovi compiti. Lui e altri avevano sperimentato dando a questi modelli suggerimenti utilizzando dati sintetici, che non avrebbero potuto vedere da nessuna parte prima, e hanno scoperto che i modelli potevano ancora imparare da pochi esempi. Akyürek e i suoi colleghi hanno pensato che forse questi modelli di rete neurale contengono al loro interno modelli di apprendimento automatico più piccoli che i modelli possono addestrare per completare una nuova attività.

“Questo potrebbe spiegare quasi tutti i fenomeni di apprendimento che abbiamo visto con questi grandi modelli”, dice.

Per testare questa ipotesi, i ricercatori hanno utilizzato un modello di rete neurale chiamato trasformatore, che ha la stessa architettura di GPT-3, ma era stato specificamente addestrato per l’apprendimento contestuale.

Esplorando l’architettura di questo trasformatore, hanno teoricamente dimostrato che può scrivere un modello lineare all’interno dei suoi stati nascosti. Una rete neurale è composta da molti strati di nodi interconnessi che elaborano i dati. Gli stati nascosti sono i livelli tra i livelli di input e di output.

Le loro valutazioni matematiche mostrano che questo modello lineare è scritto da qualche parte nei primi strati del trasformatore. Il trasformatore può quindi aggiornare il modello lineare implementando semplici algoritmi di apprendimento.

In sostanza, il modello simula e addestra una versione più piccola di se stesso.

Sondaggio di strati nascosti

I ricercatori hanno esplorato questa ipotesi utilizzando esperimenti di sondaggio, in cui hanno guardato negli strati nascosti del trasformatore per cercare di recuperare una certa quantità.

“In questo caso, abbiamo provato a recuperare la soluzione effettiva del modello lineare e abbiamo potuto dimostrare che il parametro è scritto negli stati nascosti. Ciò significa che il modello lineare è lì da qualche parte”, dice.

Sulla base di questo lavoro teorico, i ricercatori potrebbero essere in grado di consentire a un trasformatore di eseguire l’apprendimento nel contesto aggiungendo solo due livelli alla rete neurale. Ci sono ancora molti dettagli tecnici da elaborare prima che ciò sia possibile, avverte Akyürek, ma potrebbe aiutare gli ingegneri a creare modelli in grado di completare nuove attività senza la necessità di riqualificarsi con nuovi dati.

Andando avanti, Akyürek intende continuare a esplorare l’apprendimento contestuale con funzioni più complesse dei modelli lineari che hanno studiato in questo lavoro. Potrebbero anche applicare questi esperimenti a modelli linguistici di grandi dimensioni per vedere se i loro comportamenti sono descritti anche da semplici algoritmi di apprendimento. Inoltre, desidera approfondire i tipi di dati di pre-formazione che possono consentire l’apprendimento contestuale.

“Con questo lavoro, le persone possono ora visualizzare come questi modelli possono imparare dagli esemplari. Quindi, la mia speranza è che cambi il punto di vista di alcune persone sull’apprendimento contestuale”, afferma Akyürek. “Questi modelli non sono così stupidi come la gente pensa. Non si limitano a memorizzare questi compiti. Possono imparare nuovi compiti e abbiamo mostrato come farlo.

 Documento : “Quale algoritmo di apprendimento è l’apprendimento contestuale? Indagini con Modelli Lineari”

Di ihal