La ricerca congiunta, guidata da Intel Labs e UKP Lab, e Hugging Face, supera GPT-3 in 7 attività su 11, pur essendo 1600 volte più piccola
La quantità di dati etichettati disponibili è un ostacolo alla produzione di un modello ad alte prestazioni in molte applicazioni ML . Gli sviluppi degli ultimi due anni hanno mostrato la sfida di superare i limiti dei dati utilizzando LLM (Large Language Models) , come OpenAI GPT-3 per ottenere buoni risultati. Tuttavia, mentre questi migliorano la situazione dei dati etichettati mancanti, introducono un nuovo problema di accesso e costo degli LLM.
Per contrastare questo, un gruppo di ricercatori ha scoperto un nuovo approccio chiamato SetFit per creare modelli di classificazione del testo altamente accurati con dati etichettati limitati. Intel Labs , UKP Lab e Hugging Face hanno condotto la ricerca congiunta che supera GPT-3 in 7 attività su 11, pur essendo 1600 volte più piccolo.
Secondo il blog , SetFit ha diverse caratteristiche uniche rispetto ad altri metodi di apprendimento a pochi colpi. Una caratteristica è l’assenza di prompt o verbalizzatori, poiché le tecniche attuali per la messa a punto con pochi colpi richiedono prompt artigianali. SetFit elimina del tutto i prompt generando incorporamenti direttamente da esempi di testo. Inoltre, non richiede modelli su larga scala come GPT-3 per ottenere un’elevata precisione. Consiste anche in un supporto multilingue che può essere utilizzato con Sentence Transformer sull’hub.
Il team ha generato un modello di classificazione del testo ad alte prestazioni con 8 campioni per classe o solo 32 campioni etichettati utilizzando il nuovo approccio. “Questo è enorme! SetFit aiuterà così tante aziende a iniziare con la classificazione del testo e i trasformatori, senza la necessità di etichettare molti dati e potenza di calcolo. Rispetto all’allenamento LLM, il classificatore SetFit impiega meno di 1 ora su una piccola GPU (NVIDIA T4) per l’allenamento o meno di $ 1 per così dire “.
Apprendimento efficiente in pochi colpi senza suggerimenti
Lewis Tunstall , Nils Reimers , Unso Eun Seo Jo , Luke Bates , Daniel Korat , Moshe Wasserblat , Oren Pereg
I recenti metodi a pochi colpi, come la regolazione fine efficiente dei parametri (PEFT) e l’addestramento per sfruttare i modelli (PET), hanno ottenuto risultati impressionanti in contesti con scarse etichette. Tuttavia, sono difficili da impiegare poiché sono soggetti a un’elevata variabilità rispetto ai prompt creati manualmente e in genere richiedono modelli linguistici a miliardi di parametri per ottenere un’elevata precisione. Per ovviare a queste carenze, proponiamo SetFit (Sentence Transformer Fine-tuning), un framework efficiente e senza prompt per la messa a punto a pochi colpi di Sentence Transformers (ST). SetFit funziona prima mettendo a punto un ST preaddestrato su un piccolo numero di coppie di testi, in modo contrastante siamese. Il modello risultante viene quindi utilizzato per generare incorporamenti di testo RTF, che vengono utilizzati per addestrare un’intestazione di classificazione. Questo semplice quadro non richiede prompt o verbalizzatori, e raggiunge un’elevata precisione con ordini di grandezza inferiori ai parametri rispetto alle tecniche esistenti. I nostri esperimenti mostrano che SetFit ottiene risultati comparabili con le tecniche PEFT e PET, pur essendo un ordine di grandezza più veloce da addestrare. Mostriamo anche che SetFit può essere applicato in impostazioni multilingue semplicemente cambiando il corpo ST.