I ricercatori di NVIDIA hanno creato RULER, un nuovo benchmark per valutare l’efficacia dei modelli linguistici a contesto lungo (LLM) in diverse attività, come il recupero, il tracciamento multi-hop, l’aggregazione e la risposta alle domande.
In questo studio, sono stati confrontati dieci modelli LLM utilizzando RULER, con dimensioni del contesto che vanno da 4K a 128K, su 13 compiti di complessità variabile.
I risultati hanno mostrato che, nonostante le ottime prestazioni nel recupero di informazioni specifiche, tutti i modelli hanno avuto una netta diminuzione delle prestazioni man mano che aumentava la lunghezza dell’input. Alcuni modelli, come GPT-4, Command-R, Yi-34B e Mixtral, hanno mantenuto buone prestazioni fino a un contesto di 32K, ma hanno mostrato difficoltà con contesti più ampi.
Il dimensionamento del contesto di addestramento e delle dimensioni del modello ha influenzato significativamente le prestazioni. I modelli addestrati con contesti più ampi hanno ottenuto risultati migliori su RULER, anche se le prestazioni variano con sequenze più lunghe. Modelli più grandi, come Yi-34B-200k, hanno superato quelli più piccoli, evidenziando i vantaggi del ridimensionamento.
Architetture non Transformer, come RWKV-v5 e Mamba-2.8B-slimpj, hanno subito un significativo calo delle prestazioni con contesti più ampi, mentre le architetture Transformer base, come Llama2-7B, hanno mantenuto prestazioni più stabili.
Nonostante le affermazioni di utilizzo di contesti molto grandi, nessuno dei modelli ha mantenuto le prestazioni sopra la linea di base Llama2-7B, tranne Mixtral, che ha funzionato moderatamente bene al doppio della dimensione del contesto dichiarata.
Questi modelli hanno mostrato un degrado significativo delle prestazioni all’aumentare della lunghezza della sequenza, nonostante le buone prestazioni nel compito di recupero delle informazioni. GPT-4 è emerso come il modello con le migliori prestazioni, mostrando stabilità fino a un contesto di 4K e minor degrado con contesti più ampi.
Infine, è stato osservato che i modelli open source principali, come Command-R, Yi-34B e Mixtral, utilizzavano una frequenza di base ampia e avevano dimensioni dei parametri maggiori, mentre altri modelli hanno dimostrato una maggiore resistenza al degrado delle prestazioni con l’aumento delle dimensioni del contesto.
L’obiettivo della disponibilità open source di RULER è stimolare ulteriori ricerche sulla modellazione a lungo contesto, indicando un significativo potenziale di miglioramento in questo campo.