Da quando il TII degli Emirati Arabi Uniti ha lanciato Falcon, Hugging Face Open LLM Leaderboard è diventato una tendenza per vari motivi, sia positivi che negativi. Questo modello si è dimostrato il campione dell’open source su diverse metriche di valutazione. Tuttavia, è interessante notare che non esiste ancora una carta ufficiale che lo descriva. È possibile che i ricercatori abbiano utilizzato altre metriche o set di dati per valutare il modello.

I fondatori di Hugging Face, inclusi Thomas Wolf, che ha suscitato molto interesse riguardo al posizionamento di Falcon in cima alla classifica, hanno affrontato il problema delle metriche di valutazione dei modelli recenti. Secondo l’Open LLM Leaderboard, il benchmark del Massive Multitask Language Understanding (MMLU) ha rivelato che il punteggio LLaMa di Meta AI era significativamente inferiore rispetto al punteggio pubblicato nel documento del modello.

Questo fatto è stato messo in discussione da molte persone. Inizialmente, Andrej Karpathy ha espresso preoccupazione riguardo alla classifica e alla promozione di Falcon rispetto a LLaMa. Successivamente, è stato valutato da Yao Fu dell’Allen Institute, il quale ha dimostrato che senza l’uso di suggerimenti o decodifiche fantasiose, LLaMa ha ottenuto risultati migliori di Falcon nella valutazione MMLU.

Nel blog “Cosa sta succedendo con la classifica Open LLM?”, i fondatori di Hugging Face, inclusi Wolf, hanno deciso di approfondire la questione per discutere il motivo delle discrepanze tra i benchmark riportati nel documento e quelli presenti nella classifica.

Con il numero crescente di articoli sull’LLM, diventa sempre più importante chiedersi se le metriche di valutazione utilizzate dai ricercatori siano affidabili o meno. Questa domanda si estende anche ai ricercatori stessi, per capire se una singola valutazione per un modello sia sufficiente o meno.

Innanzitutto, il punteggio MMLU riportato nel documento di LLaMa è stato dichiarato non riproducibile. Ciò è dovuto al fatto che il team LLaMA ha utilizzato due diverse implementazioni di codice per valutare il proprio modello sul benchmark MMLU. Una delle implementazioni è stata sviluppata dal team originale dell’UC Berkeley, che può essere considerata l'”implementazione originale”, mentre l’altra è stata fornita dal benchmark di valutazione CRFM di Stanford chiamato HELM.

Attualmente, la classifica Open LLM utilizza queste diverse implementazioni insieme ad altri benchmark per valutare i modelli. Questo approccio viene adottato perché questi benchmark raccolgono più valutazioni in un’unica base di codice, offrendo una visione completa delle prestazioni di un modello.

Per risolvere la discrepanza, i ricercatori hanno eseguito queste tre implementazioni (il codice adattato del team LLaMA, l’implementazione UC Berkeley e l’implementazione Stanford HELM) su una serie di modelli per classificarli in base ai risultati. La cosa sorprendente è che queste diverse implementazioni hanno prodotto numeri significativamente diversi e hanno persino cambiato l’ordine di classificazione dei modelli nella classifica.

È evidente che la scelta del metodo di valutazione ha un impatto significativo sui punteggi assoluti e sulle classifiche dei modelli quando si valuta lo stesso set di dati. Sulla base della media dei tre punteggi dei ricercatori, Falcon è effettivamente sceso al di sotto di LLaMa.

Immaginiamo di aver addestrato una replica perfetta del modello LLaMa 65B e di averla valutata utilizzando l’implementazione, ottenendo un punteggio di 0,488 (come mostrato sopra). Ora, se confrontiamo questo punteggio con il punteggio pubblicato di 0,637 (valutato utilizzando l’implementazione MMLU originale), che presenta una differenza del 30%, potremmo temere che il nostro addestramento sia stato completamente fallimentare. Tuttavia, questa discrepanza nei punteggi non indica un fallimento nel processo di addestramento. Questi numeri non possono essere confrontati direttamente, anche se entrambi sono etichettati come “punteggi MMLU” e valutati sullo stesso set di dati MMLU.

Ciò dimostra chiaramente che è necessaria una standardizzazione delle metriche di valutazione degli LLM. Al momento, non esiste un metodo ideale per valutare i modelli tra tutti i metodi che abbiamo discusso. Diversi modelli possono funzionare in modo diverso a seconda del metodo di valutazione, come evidenziato dai cambiamenti nelle classifiche.

I fondatori di Hugging Face affermano che le valutazioni sono strettamente legate ai dettagli di implementazione come il prompt e la tokenizzazione. “La semplice indicazione dei ‘risultati MMLU’ fornisce poche o nessuna informazione su come confrontare questi numeri con altri valutati utilizzando un’altra libreria”, si legge nel blog.

Sarebbe vantaggioso per un ricercatore utilizzare la metrica di valutazione che fornisce il punteggio più alto per raggiungere la prima posizione nella classifica. Tuttavia, semplicemente chiamarla MMLU non la qualifica come valutazione superiore rispetto alle altre, poiché le valutazioni variano.

È ancora necessaria una standardizzazione dei metodi di valutazione nel campo. Diversi documenti di ricerca riportano diversi set di dati, a volte con contenuti sovrapposti. Inoltre, spesso i documenti non forniscono un’analisi dettagliata oltre a riportare solo i punteggi medi, a causa delle limitazioni di spazio. Ecco perché benchmark medi, aperti e riproducibili come EleutherAI Eval Harness o Stanford HELM diventano estremamente importanti per la comunità open source.

È altrettanto importante esaminare da vicino questi set di dati di valutazione per ottenere una migliore comprensione delle loro caratteristiche e di ciò che li rende adatti alla valutazione dei LLM. Fino ad allora, Hugging Face sta lavorando per correggere la classifica implementando metodi di valutazione standardizzati e aperti.

Di Fantasy