I ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) hanno ottenuto un importante progresso nella modellazione del linguaggio all’interno dei large language models (LLM) dominanti.
Il team del CSAIL ha sviluppato un approccio innovativo alla modellazione del linguaggio, che mette in discussione l’idea comune che i modelli più piccoli abbiano capacità limitate. La ricerca presenta un modello di auto-apprendimento scalabile che supera fino a 500 volte le controparti più grandi in specifici compiti di comprensione del linguaggio, senza la necessità di annotazioni umane.
L’algoritmo sviluppato dal team del MIT, chiamato “SimPLE” (Simple Pseudo-Label Editing), fa uso dell’auto-apprendimento, una tecnica che permette al modello di apprendere dai suoi stessi output, eliminando così la necessità di dati di addestramento aggiuntivi annotati dall’uomo. Questo modello è stato creato per affrontare la sfida di generare etichette imprecise durante l’autoformazione.
In particolare, il team di ricerca sostiene che questo approccio innovativo migliora significativamente le performance del modello in diverse attività, superando modelli importanti come LaMDA di Google, FLAN e altri modelli GPT.
Nel loro documento “Entailment as Robust Self-Learners”, il team del MIT presenta l’argomento secondo cui, sebbene i recenti progressi nei large language models abbiano portato a una rivoluzione, tali modelli presentano una chiara limitazione nella comprensione delle attività.
Secondo Hongyin Luo, ricercatore post-dottorato al MIT CSAIL e autore principale della ricerca, “I computer digitali sono migliori di GPT-4 nell’aritmetica perché sono progettati con principi aritmetici. Il nostro modello più piccolo è addestrato per comprendere il principio fondamentale della comprensione del linguaggio: l’implicazione contestuale, mentre i LLM non lo apprendono esplicitamente. Con l’obiettivo di apprendere l’implicazione contestuale, l’efficienza dei parametri del nostro modello è molto più elevata rispetto ai LLM, ottenendo così ottime performance nelle attività di NLU.”
La ricerca afferma anche che un modello competente di implicazione contestuale deve eccellere anche come modello di comprensione del linguaggio naturale (NLU).
Inoltre, il team del CSAIL ritiene che le implicazioni di questa ricerca vadano oltre il semplice miglioramento delle performance. Essa mette in discussione l’idea comune secondo cui i modelli più grandi siano intrinsecamente superiori, evidenziando il potenziale dei modelli più piccoli come alternative altrettanto potenti e sostenibili dal punto di vista ambientale.
Il team del MIT CSAIL ha focalizzato la sua attenzione sull’implicazione testuale per migliorare la comprensione del modello in diverse attività linguistiche. L’implicazione testuale indica la connessione tra due frasi, in modo che se una frase (premessa) è vera, è probabile che l’altra frase (ipotesi) sia anch’essa vera.
Allenando il modello utilizzando un modello che riconosce tali relazioni, i ricercatori sono stati in grado di generare suggerimenti per valutare se informazioni specifiche sono implicite in una data frase o frase all’interno di diverse attività. Questa adattazione zero-shot ha notevolmente migliorato la versatilità e l’adattabilità del modello.
Luo del MIT ha dichiarato che, sebbene i large language models abbiano dimostrato capacità impressionanti nella generazione di linguaggio, arte e codice, comportano notevoli costi computazionali e rischi per la privacy nella gestione di dati sensibili. Al contrario, i modelli più piccoli sono storicamente rimasti indietro rispetto alle loro controparti più grandi nelle attività multitasking e scarsamente supervisionate.
Per affrontare queste sfide, i ricercatori del MIT CSAIL hanno utilizzato un set di dati di inferenza logica basato sul linguaggio naturale per sviluppare modelli più piccoli che superassero modelli molto più grandi. Inoltre, incorporando il concetto di implicazione testuale, i ricercatori hanno fornito ai modelli la capacità di comprendere una vasta gamma di compiti.
Questi modelli sono stati addestrati per determinare se una determinata frase o frase implicasse informazioni specifiche, consentendo loro di adattarsi a vari compiti senza richiedere ulteriore addestramento.
“L’auto-apprendimento presenta il vantaggio che il modello può etichettare automaticamente una grande quantità di dati (creando pseudo-etichette), ma il rischio è che tali pseudo-etichette contengano previsioni errate, che potrebbero fuorviare il modello o causare overfitting”, ha affermato Luo. “Il nostro metodo SimPLE supera tutte le basi dell’auto-apprendimento. Il metodo combina due strategie classiche di intelligenza artificiale per la robustezza: la stima dell’incertezza e il voto, e fornisce una serie più accurata di previsioni.”
Luo ha spiegato che tradizionalmente la formazione di modelli linguistici richiede l’annotazione manuale dei dati da parte degli esseri umani o l’uso di API dei large language models. Tuttavia, gli annotatori umani spesso etichettano dati sensibili, compromettendo la privacy. Inoltre, la trasmissione dei dati a terze parti o alle API di OpenAI può portare a una divulgazione involontaria di informazioni altamente sensibili.
“Il nostro metodo consente l’annotazione dei dati senza visualizzare i dati”, ha spiegato. “L’annotatore deve solo scrivere un modello che descriva l’attività. Con questo modello, il nostro sistema predice la relazione tra la domanda e la risposta, generando etichette di alta qualità. In questo modo, il set di dati viene annotato senza condividere alcun dato con l’annotatore.”
Il team di ricerca del MIT sostiene che l’insieme di modelli più piccoli mostra versatilità in una vasta gamma di attività di intelligenza artificiale, che vanno dalla classificazione dei sentimenti alla categorizzazione delle notizie, dimostrando una notevole competenza nel riconoscere la relazione tra due componenti testuali.
I modelli possono dedurre il sentimento dalle dichiarazioni e determinare l’oggetto degli articoli di notizie in base al loro contenuto. I ricercatori hanno ottenuto risultati significativi reinventando vari compiti di comprensione del linguaggio naturale come compiti di implicazione.
Secondo Luo, i modelli di auto-apprendimento sull’implicazione, con 350 milioni di parametri, superano i modelli linguistici supervisionati con 137-175 miliardi di parametri. Crede fermamente che questo lavoro pionieristico abbia il potenziale per ridefinire il panorama dell’intelligenza artificiale e dell’apprendimento automatico, fornendo una soluzione di modellazione del linguaggio più scalabile, affidabile e conveniente.
“Il cuore del nostro modello prevede le relazioni di implicazione, mentre i large language models prevedono “come rendere le cose simili ai dati di addestramento”,” ha aggiunto Luo. “Ciò rende il nostro modello più adatto ed efficiente per la comprensione del linguaggio. Il nostro modello ha prestazioni migliori rispetto ai large language models e ai tradizionali modelli basati su BERT addestrati con etichette generate dall’uomo.”
Il documento che descrive questa ricerca, scritto da Luo, James Glass e Yoon Kim, sarà presentato a luglio al Meeting of the Association for Computational Linguistics a Toronto, in Canada. Il progetto ha ricevuto il sostegno del programma Hong Kong Innovation AI.
Con il suo approccio pionieristico, la ricerca si impegna a gettare le basi per future tecnologie di intelligenza artificiale che danno priorità alla scalabilità, alla protezione della privacy e alla sostenibilità.
Luo ha affermato che il modello contiene solo 1/500 dei parametri rispetto a GPT-3-175B, semplificandone notevolmente l’implementazione e consentendo inferenze più rapide. Il team CSAIL ha sottolineato che le organizzazioni sono ora in grado di implementare modelli multi-task efficienti e robusti senza compromettere la privacy dei dati o dipendere da costose risorse computazionali grazie a questa ricerca.