Cohere, una startup di intelligenza artificiale, ha presentato un nuovo metodo di valutazione chiamato Panel of LLM Evaluators (PoLL). Questo metodo coinvolge un gruppo di modelli più piccoli e diversificati per valutare le prestazioni dei modelli di linguaggio generativo (LLM). Rispetto alle valutazioni tradizionali che usano un unico modello grande come GPT-4, PoLL offre un approccio più accurato, meno costoso e meno soggetto a distorsioni intra-modello.
L’idea di base è che PoLL riunisce vari modelli di diverse famiglie di LLM per valutare i risultati. Questo non solo riduce i costi di valutazione, ma anche le distorsioni, poiché ogni modello nel pannello offre una prospettiva diversa. I test con PoLL hanno dimostrato una maggiore correlazione con le valutazioni umane rispetto alle valutazioni basate su un singolo modello, indicando una migliore comprensione delle sfumature del linguaggio.
PoLL include modelli da tre famiglie diverse: GPT-3.5, CMD-R e Haiku. Questa diversità consente a PoLL di valutare in modo completo le prestazioni dei LLM, considerando diverse capacità di comprensione e generazione del linguaggio.
Il successo di PoLL suggerisce che approcci simili potrebbero essere utilizzati per valutare LLM in modo più efficace e diversificato in futuro. Inoltre, esplorare l’applicazione di PoLL ad altri compiti di elaborazione del linguaggio potrebbe portare a ulteriori sviluppi nel campo.