Un gruppo di ricercatori provenienti dalla Corea, incluso il Korea Advanced Institute of Science and Technology (KAIST) e l’LG AI Research Institute, si è unito a rinomati istituti di ricerca internazionali per sviluppare uno strumento di benchmarking open source rivoluzionario. Questo strumento è progettato per valutare le prestazioni dei modelli LLM (Large Language Models) e si distingue per l’integrazione di due approcci che compensano le carenze dei benchmark attuali, producendo risultati che si avvicinano alle preferenze umane.
Il nuovo strumento, chiamato “Prometheus 2”, è stato introdotto da ricercatori provenienti da diverse istituzioni, tra cui KAIST, LG AI Research Institute, Carnegie Mellon University, MIT, Allen AI Research Institute e Università dell’Illinois a Chicago. Questo benchmark combina due approcci per superare le limitazioni dei benchmark LLM esistenti.
Secondo i ricercatori, i modelli LLM come GPT-4 sono comunemente usati per valutare la qualità di altri modelli LLM, ma presentano alcune debolezze in termini di trasparenza, controllo ed economicità. Per affrontare tali limitazioni, è stato sviluppato Prometheus 2, che si avvicina sia ai giudizi umani che a quelli di GPT-4.
Questo strumento combina due metodologie: un metodo che valuta le prestazioni LLM singolarmente e un metodo che confronta le prestazioni di due modelli. Per migliorare l’efficacia dello strumento, è stato utilizzato un ampio set di dati contenente 1000 nuovi elementi, che ha permesso una fusione lineare delle due metodologie, ottenendo prestazioni elevate in vari test di valutazione.
Prometheus 2 è stato testato su diversi benchmark di valutazione diretta e ha dimostrato una correlazione molto stretta con gli esseri umani e GPT-4. Ha superato i modelli open source esistenti, ottenendo un punteggio di precisione superiore all’85%. Questi risultati indicano che Prometheus 2 non solo eccelle nella valutazione delle prestazioni LLM, ma ha anche il potenziale per diventare uno strumento di benchmarking open source affidabile, in grado di sostituire soluzioni costose e proprietarie.