I ricercatori di Microsoft hanno introdotto un nuovo approccio al pre-addestramento dei modelli linguistici (LM) chiamato Selective Language Modeling (SLM), sfidando il metodo tradizionale che applica uniformemente una perdita di previsione del token successivo a tutti i token in un corpus di addestramento. Con SLM, l’addestramento si concentra selettivamente sui token utili che si allineano con la distribuzione desiderata anziché tentare di prevedere ogni token successivo.
Hanno presentato il modello RHO-1, che utilizza SLM, introducendo varianti come Rho-Math-v0.1, Rho-Math-1B e Rho-Math-7B. Questi modelli hanno dimostrato elevate performance nella previsione di token matematici, con Rho-Math-1B-Interpreter che raggiunge una precisione superiore al 40% e Rho-Math-7B-Interpreter che raggiunge il 52% sul set di dati MATH.
L’approccio SLM valuta i token di pre-addestramento utilizzando un modello di riferimento e concentra l’addestramento del modello linguistico sui token con una maggiore perdita in eccesso. Questo processo selettivo ha portato a miglioramenti significativi nella precisione del modello, fino al 30% in diversi compiti di matematica durante il pre-addestramento continuo su un vasto corpus.
A differenza dei metodi tradizionali, che filtrano i dati a livello di documento, SLM si concentra sui singoli token eliminando quelli indesiderati durante la pre-formazione. Questo metodo affina efficacemente il modello sui token rilevanti, come dimostrato dall’analisi dei token selezionati e dalla loro perplessità attraverso vari checkpoint di addestramento.
La discussione delinea le possibili direzioni future per SLM, tra cui la sua estensione a domini al di fuori della matematica, la sua applicabilità a modelli e set di dati più grandi e l’ottimizzazione del processo di selezione dei token.
Inoltre, si suggeriscono miglioramenti all’approccio SLM, come la riponderazione dei token anziché la loro selezione e l’utilizzo di più modelli di riferimento per ridurre l’overfitting.
Infine, si ipotizza l’estensione di SLM alla messa a punto supervisionata e alle attività di allineamento, con l’obiettivo di ottenere modelli di base allineati nativamente durante la pre-formazione.