In che modo il MIT sta addestrando i modelli di linguaggio AI in un’era di scarsità di dati di qualità

Il miglioramento della robustezza dei modelli di machine learning (ML) per le attività in linguaggio naturale è diventato uno dei principali argomenti di intelligenza artificiale (AI) negli ultimi anni. I modelli di linguaggio di grandi dimensioni (LLM) sono sempre stati una delle aree più di tendenza nella ricerca sull’IA, supportata dall’ascesa dell’IA generativa e dalle aziende che si affrettano a rilasciare architetture in grado di creare contenuti straordinariamente leggibili, persino codice di computer. 

I modelli linguistici sono stati tradizionalmente addestrati utilizzando testi online da fonti come Wikipedia, notizie, articoli scientifici e romanzi. Tuttavia, negli ultimi anni, la tendenza è stata quella di addestrare questi modelli su quantità crescenti di dati al fine di migliorarne l’accuratezza e la versatilità.

 
Utilizzo dell’intelligenza artificiale per potenziare piattaforme senza codice e semplificare il lavoro – Summit Low-Code/No-Code
Ma, secondo un team di previsori dell’IA, c’è una preoccupazione all’orizzonte: potremmo esaurire i dati su cui addestrarli. I ricercatori di Epoch sottolineano in uno studio che i dati di alta qualità generalmente utilizzati per l’addestramento dei modelli linguistici potrebbero esaurirsi già nel 2026. Man mano che gli sviluppatori creano modelli più sofisticati con capacità superiori, devono raccogliere più testi su cui addestrarli e i ricercatori LLM sono ora sempre più preoccupato per l’esaurimento dei dati di qualità.

Kalyan Veeramachaneni , uno dei principali ricercatori del laboratorio Information and Decision Systems del MIT e leader del gruppo Data-to-AI del laboratorio , potrebbe aver trovato la soluzione. In un documento su Rewrite and Rollback (“R&R: Metric-Guided Adversarial Sentence Generation”) recentemente pubblicato nei risultati di AACL-IJCNLP 2022 , il framework proposto può modificare e trasformare dati di bassa qualità (da fonti come Twitter e 4Chan) in dati di alta qualità (come quelli provenienti da fonti con filtri editoriali, come Wikipedia e siti Web di settore), aumentando la quantità del tipo corretto di dati su cui testare e addestrare i modelli linguistici.

 

I ricercatori di intelligenza artificiale del linguaggio generalmente dividono i dati che utilizzano per addestrare i modelli in dati di alta qualità e dati di bassa qualità. I dati di alta qualità sono generalmente definiti come provenienti da fonti che “hanno superato i filtri di utilità o qualità” come rilevato dallo studio Epoch. In altre parole, è stato rivisto per la qualità editoriale, sia professionalmente che attraverso peer review (nel caso di articoli scientifici, romanzi pubblicati, Wikipedia, ecc.) o coinvolgimento positivo da parte di molti utenti (come per i contenuti web filtrati).

 
I dati delle categorie di bassa qualità includono testo non filtrato e generato dall’utente come post sui social media o commenti su siti Web come 4chan, e queste istanze superano di gran lunga quelle classificate di alta qualità.

La formazione di LLM con set di dati imperfetti e di bassa qualità può portare a molti problemi:

 
Gli esempi con etichette errate nel set di dati introducono rumore nell’addestramento, che può confondere il modello e ridurne la qualità.
Correlazioni spurie (ad esempio, frasi con determinate parole che ricevono sempre un’etichetta particolare) incoraggiano il modello a cogliere scorciatoie errate e lo portano a commettere errori in scenari reali.
La distorsione dei dati (ad esempio, un set di dati contenente testo solo da un gruppo specifico di persone) rende il modello poco performante su input particolari. Set di dati di alta qualità possono alleviare questi problemi.
Poiché i modelli ML si basano sui dati di addestramento per imparare a fare previsioni, la qualità dei dati influisce notevolmente sulla qualità del modello. Di conseguenza, i ricercatori spesso addestrano i modelli solo con dati di alta qualità, poiché desiderano che i loro modelli ricreano una fluidità linguistica superiore. L’addestramento di LLM utilizzando campioni di testo di alta qualità consente al modello di comprendere le complessità e la complessità insite in ogni lingua. Questo metodo ha prodotto risultati eccezionali per modelli linguistici complessi come GPT-3.

Veeramachaneni afferma che mirare a una generazione di testo più intelligente e articolata può anche essere utile per addestrare gli LLM sul discorso umano della vita reale. 

“Il testo del tuo post sui social media, blog, ecc., potrebbe non raggiungere questa alta qualità, il che riduce la qualità complessiva del set di allenamento”, ha detto Veeramachaneni a VentureBeat. “Abbiamo pensato, potremmo utilizzare i dati esistenti di alta qualità per formare LLM (a cui ora abbiamo già accesso a LLM formati su dati di alta qualità) e utilizzare tali LLM per aumentare la qualità degli altri dati?” 

 
Il MIT affronta le sfide attuali nello sviluppo LLM
Veeramachaneni ha spiegato che la formazione degli LLM richiede enormi quantità di dati di formazione e risorse informatiche, che sono disponibili solo per i giganti della tecnologia. Ciò significa che la maggior parte dei singoli ricercatori deve dipendere dagli LLM generati e rilasciati dai giganti della tecnologia piuttosto che crearne di propri.

Ha detto che nonostante gli LLM diventino più grandi e richiedano più dati di addestramento, il collo di bottiglia è ancora la potenza di calcolo per la maggior parte del tempo. 

“I dati annotati di alta qualità per le attività a valle [sono] difficili da ottenere. Anche se progettiamo un metodo per creare frasi di qualità superiore da frasi di qualità inferiore, come potremmo sapere che il metodo ha svolto correttamente il lavoro? Chiedere agli umani di annotare i dati è costoso e non scalabile. 

“Quindi, R&R fornisce un metodo per utilizzare gli LLM in modo affidabile per migliorare la qualità delle sentenze”, ha affermato. 

 
Veeramachaneni ritiene che, in termini di qualità del modello, gli attuali LLM debbano migliorare la loro capacità di generare documenti lunghi.

“I modelli attuali possono rispondere alle domande con poche frasi ma non possono scrivere una storia di fantasia con un tema e una trama logica. Il miglioramento dell’architettura è necessario affinché i LM gestiscano testi più lunghi”, ha affermato Veeramachaneni. “Ci sono anche sempre più preoccupazioni sui potenziali impatti negativi degli LLM. Ad esempio, gli LLM potrebbero ricordare le informazioni personali dai dati di addestramento e farle trapelare durante la generazione del testo. Questo problema è difficile da rilevare, poiché la maggior parte degli LLM sono scatole nere”.

Veeramachaneni e il gruppo di ricerca del gruppo Data-to-AI del MIT mirano a risolvere tali problemi attraverso il loro framework Rewrite and Rollback. 

Un nuovo metodo di generazione dell’avversario dal team del MIT
  
Nel documento “R&R: Metric-Guided Adversarial Sentence Generation”, il team di ricerca propone un quadro contraddittorio in grado di generare dati di testo di alta qualità ottimizzando un punteggio critico che combina metriche di fluidità, somiglianza e classificazione errata. R&R genera esempi contraddittori di alta qualità acquisendo dati di testo da fonti diverse e riformulandoli, ad esempio modificando una frase in vari modi per sviluppare una serie di frasi alternative. 

“Date 30.000 parole nel suo vocabolario, può produrre un numero arbitrario di frasi. Quindi le vaglia fino alle frasi di altissima qualità in termini di qualità grammaticale, fluidità e somiglianza semantica con la frase originale “, ha detto Veeramachaneni a VentureBeat.

Il Framework R&R, Fonte immagine: MIT.
Per fare ciò, utilizza un LLM addestrato su frasi di alta qualità per rimuovere frasi che devono essere grammaticalmente corrette o fluenti. In primo luogo, tenta di riscrivere l’intera frase, senza limiti sul numero di parole modificate; quindi tenta di ripristinare alcune modifiche per ottenere un insieme minimo di modifiche.

 
“Poiché i classificatori di testo generalmente devono essere addestrati su dati etichettati dall’uomo, sono spesso addestrati con piccoli set di dati, il che significa che possono essere facilmente ingannati e classificare erroneamente le frasi. Abbiamo utilizzato R&R per generare molte di queste frasi che potrebbero ingannare un classificatore di testo e quindi potrebbero essere utilizzate per addestrarlo e migliorarlo “, ha spiegato Veeramachaneni.

È anche possibile utilizzare R&R per trasformare una frase di bassa qualità o scritta male in una frase di migliore qualità. Tale metodo può avere diverse applicazioni, dall’assistenza alla modifica per la scrittura umana alla creazione di più dati per LLM. 

 
La funzione di riscrittura stocastica consente allo strumento di esplorare uno spazio di testo più ampio e la funzione di rollback consente di apportare modifiche significative con modifiche minime. Questa funzione è potente perché esplora molte opzioni e può trovare più esempi contraddittori diversi per la stessa frase. Di conseguenza, R&R può generare frasi fluenti che sono semanticamente simili a una frase target senza intervento umano. 

“Il caso d’uso principale di R&R è condurre attacchi contraddittori ai classificatori di testo”, ha affermato Veeramachaneni. “Data una frase, può trovare frasi simili in cui il classificatore ha classificato erroneamente. Le frasi generate da R&R possono aiutare a espandere questi set di addestramento, migliorando così la qualità dei classificatori di testo, il che potrebbe anche aumentare le loro potenziali applicazioni.

Parlando delle sfide affrontate durante lo sviluppo del modello R&R, Veeramachaneni ha detto a VentureBeat che i metodi tradizionali per trovare frasi alternative si limitano a cambiare una parola alla volta. Durante la progettazione della fase di riscrittura, il team ha inizialmente sviluppato la tecnica per mascherare solo una parola, ovvero per modificare una parola alla volta. In tal modo, hanno scoperto che ciò ha portato a un cambiamento di significato rispetto a quello della frase originale.

 
“Un tale design ha portato il modello a rimanere bloccato perché non ci sono molte opzioni per una singola posizione mascherata”, ha detto. “Abbiamo superato questo problema mascherando più parole in ogni passaggio. Questo nuovo design ha anche consentito al modello di modificare la lunghezza del testo. Quindi abbiamo introdotto la fase di rollback, che elimina perturbazioni/modifiche non necessarie.”

Il team di ricerca afferma che R&R può anche aiutare le persone a cambiare la propria scrittura per perseguire un obiettivo specifico: ad esempio, può essere utilizzato per rendere una frase più persuasiva, più concisa, ecc. Sia la valutazione automatica che quella umana del framework R&R lo hanno dimostrato il metodo proposto riesce a ottimizzare le metriche automatiche di similarità e fluidità per generare esempi contraddittori di qualità superiore rispetto ai metodi precedenti.

Il futuro degli LLM e dell’IA generativa 
Veeramachaneni ritiene che gli LLM spingeranno i confini del discorso umano nel prossimo futuro e spera di vedere più applicazioni degli LLM nel 2023. 

“Gli LLM saranno in grado di riassumere e fornire rapidamente e facilmente le informazioni esistenti. Di conseguenza, ciò che scriviamo e le nostre interazioni reciproche dovranno essere più significative e perspicaci. È un progresso”, ha detto. 

ANNUNCIO
Veeramachaneni ha inoltre spiegato che gli LLM vengono attualmente utilizzati solo per riassumere il testo o rispondere a domande, ma ci sono molte altre possibili applicazioni.

“Poiché il potenziale di questi strumenti viene continuamente realizzato, prevediamo un boom di utilizzo. Il recente rilascio di ChatGPT da parte di OpenAI ha dimostrato una buona capacità di generazione di testo. Possiamo aspettarci che i giganti della tecnologia competano su modelli più grandi e rilascino modelli più grandi con prestazioni migliori “, ha affermato Veeramachaneni. 

“Allo stesso tempo, ci aspettiamo valutazioni serie dei limiti e delle vulnerabilità degli LLM. È chiaro che gli LLM possono produrre frasi significative e leggibili. Ora, ci aspettiamo che le persone inizino a concentrarsi sulla valutazione delle informazioni fattuali contenute nel testo generato”.

Vittorio Dey da venturebeat.com

Di ihal