RULER: il nuovo benchmark di NVIDIA per valutare modelli linguistici
I ricercatori di NVIDIA hanno creato RULER, un nuovo benchmark per valutare l’efficacia dei modelli linguistici a contesto lungo (LLM) in diverse attività, come il recupero, il tracciamento multi-hop, l’aggregazione…