Il panorama della valutazione dei modelli linguistici di grandi dimensioni (LLM) si sta espandendo, con vari parametri di riferimento che emergono per valutarne le capacità in domini distinti. Questi benchmark offrono approfondimenti sfumati sulle prestazioni degli LLM su attività che comprendono competenza di codifica, comprensione del linguaggio naturale, comprensione multilingue e altro ancora. L’esame degli LLM su questi parametri fornisce un quadro completo dei punti di forza e dei limiti degli LLM.

Anche se c’è una discussione crescente su quanto sia affidabile fidarsi dei modelli basati sulle metriche, è comunque essenziale notare la fattibilità del modello e comprenderne le capacità, proprio come confrontare il proprio modello con GPT.

Sebbene i LLM si mostrino promettenti, continuano a confrontarsi con le complessità inerenti al linguaggio, alla codifica e al contesto attraverso queste diverse valutazioni. Tuttavia, come i modelli di intelligenza artificiale, i parametri di riferimento sono in continua evoluzione e continueranno a farlo.

Ecco 5 parametri di riferimento per valutare l’efficienza dei modelli linguistici:

HumanEval
Il benchmark HumanEval è un insieme di 164 problemi di programmazione creati appositamente per valutare le capacità di codifica di modelli linguistici di grandi dimensioni. Questi problemi coprono una vasta gamma di abilità, tra cui la comprensione del linguaggio, il lavoro con algoritmi e le operazioni matematiche di base. Ogni problema all’interno del benchmark HumanEval viene presentato sotto forma di una docstring, una parte di testo concisa che delinea la descrizione del problema e il risultato atteso. Il compito di LLM è generare codice Python che risolva efficacemente il problema, in base alla docstring fornita. Questo codice generato viene quindi valutato da un giudice umano per determinarne la correttezza e la funzionalità. Sebbene il benchmark HumanEval sia relativamente nuovo, è già stato utilizzato per valutare diversi LLM , come GPT-3, LLaMA, Llama 2 e PaLM. Queste valutazioni hanno indicato che gli LLM possiedono la capacità di produrre codice accurato e funzionale. Tuttavia, vale la pena notare che continuano a commettere errori , in particolare su sfide più complesse.

MBPP (principalmente programmazione Python di base)
Il benchmark MBPP è una raccolta di 1.000 problemi di programmazione Python provenienti dalla massa. Il suo scopo è valutare le capacità di generazione del codice degli LLM. I problemi sono intenzionalmente progettati per essere risolti da individui a un livello introduttivo di programmazione utilizzando concetti di programmazione di base e funzionalità di libreria standard. Ogni problema all’interno del benchmark MBPP è costituito da tre componenti: una descrizione concisa dell’attività, una soluzione in codice Python e tre casi di test automatizzati. La descrizione dell’attività fornisce una breve spiegazione del problema, mentre la soluzione del codice prevede una funzione Python creata per risolvere il problema specifico. I casi di test automatizzati hanno lo scopo di confermare l’accuratezza della soluzione del codice fornita. Sebbene il benchmark MBPP sia attualmente nella sua fase di sviluppo, è già stato utilizzato per valutare diversi LLM. Tra questi spiccano LEVER + Codex, Reviewer + Codex002, MBR-Exec. I risultati di queste valutazioni dimostrano la capacità dei LLM di generare codice funzionale e corretto per problemi fondamentali di programmazione Python.

MMLU
MMLU , che sta per Multilingual Multitask Learning for Understanding, funge da punto di riferimento di valutazione per gli LLM per eseguire diverse attività di comprensione del linguaggio naturale in varie lingue. Coprendo la risposta alle domande, il riepilogo, la traduzione, l’inferenza del linguaggio naturale e le attività di dialogo tra le 57 attività totali , MMLU è realizzato per essere impegnativo e richiede una solida comprensione del linguaggio da parte dei LLM. La valutazione considera l’accuratezza e la fluidità, misurando le risposte corrette e la coerenza naturale. Utilizzato nella valutazione di LLM come Flan-PaLM 2, Codex + REPLUG LSR, Chinchilla, MMLU rivela la capacità dei LLM di svolgere compiti di comprensione multilingue, anche se gli errori persistono in sfide complesse.

TriviaQA (1-shot)
Il benchmark TriviaQA (1-shot) valuta la capacità dei LLM di rispondere alle domande utilizzando una sola istanza di formazione. Questo set di dati comprende 100.000 domande e risposte, classificate in 10.000 corsi di formazione, 10.000 convalide e 80.000 esempi di test. Le domande abbracciano diversi livelli di difficoltà e talvolta richiedono conoscenze del mondo reale o buon senso. Nel quadro 1-shot ad ogni domanda viene assegnato un unico esempio formativo per il LLM. Ciò intensifica la sfida poiché il LLM deve generalizzare da questa singola istanza per affrontare domande simili. Vari LLM , come PaLM 2-L, GLaM 62B/64E, FiE+PAQ sono stati valutati utilizzando il benchmark TriviaQA. Sebbene queste valutazioni indichino la competenza dei LLM nel rispondere alle domande con un solo esempio di formazione, gli errori persistono, in particolare con le domande più difficili.

BIG Bench Hard
Il BIG Bench Hard funge da ampio strumento di valutazione per modelli linguistici di grandi dimensioni, un’iniziativa fondata da Clark et al. nel 2021. Composto da oltre 200 attività, il benchmark BIG-Bench copre una vasta gamma di attività classificate in 10 categorie distinte. Queste categorie comprendono uno spettro di compiti di comprensione del linguaggio, tra cui implicazione testuale, risposta a domande, inferenza del linguaggio naturale, ragionamento basato sul senso comune, completamento del codice, traduzione, riepilogo, analisi dei dati, scrittura creativa e compiti vari come l’analisi del sentimento e la generazione di testo creativo. Il benchmark è meticolosamente progettato per sfidare i LLM, richiedendo loro di mostrare varie competenze e abilità in una vasta gamma di compiti. Progettato con un framework estensibile, il benchmark BIG-Bench può accogliere l’aggiunta di nuove attività man mano che vengono sviluppate, consentendogli di rimanere aggiornato con le sfide emergenti nella comprensione del linguaggio. Questa adattabilità garantisce che rimanga un punto di riferimento pertinente e dinamico per valutare le capacità in evoluzione degli LLM.

Di Fantasy