AgentBench: un nuovo approccio al benchmarking degli LLM
È ampiamente riconosciuto che i benchmark per i Modelli di Lingua su Larga Scala (LLM) possono essere fuorvianti e non rappresentativi della loro effettiva capacità. Uno dei principali problemi riscontrati…