È ampiamente riconosciuto che i benchmark per i Modelli di Lingua su Larga Scala (LLM) possono essere fuorvianti e non rappresentativi della loro effettiva capacità. Uno dei principali problemi riscontrati nel benchmarking è la contaminazione dei dati di addestramento, che spesso influisce negativamente sulla valutazione dei modelli. Benchmarks come GLUE, SQuAD e Winograd Schema hanno visto i modelli raggiungere risultati eccezionali grazie a input attentamente curati. Tuttavia, gli sviluppatori spesso valutano i loro LLM in base alle classifiche di Hugging Face, confrontandoli con vari benchmark nel tentativo di ottenere il massimo punteggio.
Ci sono diversi motivi per cui questi benchmark possono non essere affidabili, mettendo così in discussione l’accuratezza delle valutazioni dei modelli di intelligenza artificiale. In primo luogo, i benchmark spesso hanno un focus troppo stretto, limitandone l’applicabilità in contesti reali. Inoltre, i set di dati utilizzati per l’addestramento dei LLM potrebbero non rappresentare adeguatamente i dati che i modelli incontreranno nella vita reale. Questo può portare a situazioni in cui i modelli ottengono buoni punteggi nei benchmark ma si comportano in modo scadente nelle applicazioni reali.
MMLU (Massive Multitask Language Understanding) è considerato uno dei benchmark più ampi, ma richiede risposte sotto forma di singoli caratteri, il che può essere problematico per domande complesse. Un video su YouTube ha evidenziato numerosi errori nelle domande del test MMLU, dimostrando che il benchmark stesso non è immune da problematiche. Gli errori nelle domande possono influenzare notevolmente i risultati del benchmarking, con alcune correzioni che possono alterare i punteggi fino al 2%, una differenza significativa.
Il video ha anche suggerito che una strategia diversa, che consente al modello di “ragionare” prima di fornire una risposta, ha migliorato notevolmente le prestazioni. Piuttosto che considerare la risposta più probabile come la migliore, considerare più risposte possibili e selezionare quella più comune sembra funzionare meglio.
Questo tipo di miglioramento è stato ottenuto creando esempi speciali per alcune categorie di domande, consentendo al modello di esplorare diverse risposte prima di scegliere quella più comune. Come risultato, il video ha riportato un punteggio non ufficiale dell’88,4% nel benchmark MMLU, superando l’86,4% registrato da OpenAI. Tuttavia, è importante notare che l’efficacia di tali miglioramenti può variare in base al contesto.
Queste problematiche non sono limitate al MMLU. L’anno scorso, il benchmark HellaSwag, che valuta il senso comune nella comprensione del linguaggio naturale, ha riscontrato errori nel 36% delle sue frasi.
Un’altra sfida riguarda l’uso di benchmark come HumanEval, che valuta le capacità di programmazione dei modelli linguistici in Python. La contaminazione dei dati o degli stessi modelli può portare a risultati errati, influenzando la percezione delle capacità del modello.
Per affrontare queste problematiche, un team di ricercatori provenienti da diverse università ha introdotto AgentBench, un benchmark multidimensionale progettato per valutare i LLM in una varietà di contesti. Questo approccio si differenzia dai tradizionali benchmark focalizzati su un singolo dominio, offrendo una valutazione più completa delle capacità dei modelli in scenari reali.
Le aziende stanno anche sviluppando soluzioni personalizzate per valutare i modelli di linguaggio su larga scala, riconoscendo la necessità di benchmark specifici per casi d’uso particolari.
In sintesi, è fondamentale affrontare le sfide del benchmarking per costruire modelli di intelligenza artificiale migliori. Invece di concentrarsi sulla ricerca della “generalità”, i benchmark dovrebbero mirare a fornire una valutazione accurata delle capacità dei modelli linguistici. Il benchmarking dovrebbe essere visto come un mezzo per valutare il funzionamento dei modelli dopo il loro rilascio, anziché come un obiettivo finale. Questa prospettiva può contribuire a garantire che i modelli siano più adatti alle applicazioni reali e meno suscettibili a errori dovuti a problematiche nei benchmark stessi.”