Un nuovo studio condotto dall’Indian Institute of Madras e AI4Bharat ha messo in luce importanti difetti nei metodi attuali utilizzati dai Large Language Models (LLM) per valutare la generazione di testo.
Il nuovo framework, chiamato FBI, è stato progettato per valutare la capacità dei LLM di valutare quattro abilità chiave in altri LLM: accuratezza fattuale, aderenza alle istruzioni, coerenza nella scrittura lunga e capacità di ragionamento.
Lo studio ha introdotto alterazioni mirate nelle risposte generate dai LLM, per vedere se i LLM valutatori riuscivano a rilevare i cali di qualità. I risultati hanno mostrato che gli attuali LLM valutatori non sono in grado di identificare i cali di qualità in oltre il 50% dei casi, evidenziando la necessità di strategie di valutazione migliori.
Le valutazioni a risposta singola e a coppie si sono rivelate particolarmente limitate, mentre le valutazioni basate su riferimenti hanno mostrato prestazioni migliori. Tuttavia, lo studio sottolinea che anche queste ultime non sono infallibili e che è necessario prestare attenzione nell’utilizzo dei LLM valutatori per valutare la generazione di testo.
In particolare, lo studio ha rilevato che i LLM valutatori non sono sempre in grado di individuare errori di base, come quelli di ortografia e grammatica, il che solleva preoccupazioni sulla loro affidabilità in sistemi che richiedono un processo decisionale ad alto rischio.
Il framework FBI offre un nuovo approccio per testare le capacità dei valutatori, rivelando i loro punti deboli e guidando lo sviluppo di modelli più robusti e affidabili. In un mondo sempre più dominato dall’intelligenza artificiale, la capacità di valutare accuratamente le prestazioni dei LLM è fondamentale per garantire la qualità e l’affidabilità dei sistemi basati