Ancora un altro modello linguistico da Meta: Atlas
Questo modello raggiunge una precisione del 42% su Natural Questions utilizzando solo 64 esempi e supera PaLM
 
Nell’ultimo, il gigante della tecnologia Meta è uscito con un nuovo modello linguistico chiamato Atlas. È un modello linguistico potenziato per il recupero con ottime prestazioni in pochi colpi nelle attività di risposta alle domande e verifica dei fatti, aggiunge Meta. 

Nel documento intitolato ” Apprendimento a colpi di arma da fuoco con il recupero di modelli linguistici aumentati “, i ricercatori affermano di aver eseguito valutazioni su una varietà di compiti come MMLU , KILT e NaturalQuestions . Questo modello raggiunge un’accuratezza del 42% sulle domande naturali utilizzando solo 64 esempi e supera PaLM (un modello con parametri 540B) del 3% sebbene abbia parametri oltre 50 volte inferiori (11B). 

LA BELLAMIA
Iscriviti per ricevere la tua dose settimanale di ciò che accade nella tecnologia emergente.
E-mail
ISCRIZIONE

Recupero del modello aumentato

Nel documento , i ricercatori discutono della necessità di far emergere questo modello. Aggiungono che gli LLM hanno precedentemente mostrato capacità di risultati a colpo limitato, ma per la risposta alle domande e il controllo dei fatti in cui la conoscenza è la chiave, “sembra che siano necessari conteggi massicci di parametri per archiviare la conoscenza”. 

È qui che entrano in gioco i modelli aumentati di recupero in quanto sono in grado di svolgere attività ad alta intensità di conoscenza senza bisogno di troppi parametri. I ricercatori aggiungono che volevano vedere se questi modelli funzionano in impostazioni a scatti. 

“Indaghiamo se l’apprendimento a scatti richiede che i modelli memorizzino una grande quantità di informazioni nei loro parametri e se la memorizzazione può essere disaccoppiata dalla generalizzazione”, affermano i ricercatori. 

Secondo i ricercatori, Atlas recupera documenti rilevanti utilizzando un denso retriever per uso generico utilizzando un’architettura a doppio codificatore basata su Contriever . Successivamente, i documenti vengono elaborati da un modello da sequenza a sequenza utilizzando l’ architettura Fusion-in-Decoder .


Immagine: apprendimento a scatti con il recupero di modelli linguistici aumentati

I ricercatori studiano l’impatto di diverse tecniche per addestrare Atlas sulle sue prestazioni a colpo ridotto in attività come il controllo dei fatti e la risposta alle domande. “Troviamo che il pre-allenamento congiunto dei componenti sia fondamentale per prestazioni a scatti”, aggiunge il documento. Il modello si comporta bene in ambienti ricchi di risorse e con poche riprese. Dimostra i risultati SOTA su NaturalQuestions (+2,8 %), TriviaQA (+3,3%), FEVER (+5,1%). Atlas è molto forte nelle tradizionali impostazioni di set di formazione completo e stabilisce un nuovo stato dell’arte su NaturalQuestions dell’8% e TriviaQA del 9% e su 5 attività KILT, informa Meta.


Immagine: apprendimento a scatti con il recupero di modelli linguistici aumentati

Architettura

Il team di ricerca segue il framework text-to-text. Le attività seguono questo percorso:

Il sistema riceve una query di testo come input
Genera un output di testo
Per le attività di classificazione, questa query si presenta sotto forma di input testuale e il modello genera l'”etichetta di classe lessicalizzata”.


Immagine: apprendimento a scatti con il recupero di modelli linguistici aumentati

Il modello si basa su due sottomodelli, informa il giornale. 

Il retriever – Qui il retriever basato sul Contriever . È una tecnica di recupero delle informazioni basata su incorporamenti densi continui.
Modello del linguaggio: il team utilizza l’architettura da sequenza a sequenza T5 . Usa la modifica Fusion-in-Decoder dei modelli da sequenza a sequenza ed elabora ogni documento in modo indipendente nel codificatore.
Per qualsiasi attività come la risposta a domande alla generazione di articoli, il modello segue un approccio simile. Inizia recuperando i documenti rilevanti top-k da un ampio corpus di testo con il retriever. Quindi, questi documenti vengono inviati al modello del linguaggio, insieme alla query, che genera l’output. Sia il retriever che il modello linguistico si basano su reti di trasformatori pre-addestrate come da documento .

“Atlas supera i modelli non aumentati molto più grandi per quanto riguarda la risposta alle domande a colpo singolo (NaturalQuestions e TriviaQA) e il fact checking (FEVER) ed è competitivo con vari modelli molto grandi su un’ampia gamma di esami del mondo reale”, aggiunge Meta.

Meta ci parla anche di altri vantaggi di Atlas. I passaggi recuperati possono essere ispezionati per una migliore interpretabilità e il corpus da cui recupera Atlas può essere modificato o addirittura completamente sostituito. Ciò garantisce che Atlas possa essere tenuto aggiornato senza bisogno di essere riqualificato.

Di ihal