Cohere presenta PoLL per la valutazione dei Modelli di Linguaggio

DiFantasy

Apr 30, 2024

Cohere, una startup di intelligenza artificiale, ha presentato un nuovo metodo di valutazione chiamato Panel of LLM Evaluators (PoLL). Questo metodo coinvolge un gruppo di modelli più piccoli e diversificati per valutare le prestazioni dei modelli di linguaggio generativo (LLM). Rispetto alle valutazioni tradizionali che usano un unico modello grande come GPT-4, PoLL offre un approccio più accurato, meno costoso e meno soggetto a distorsioni intra-modello.

L’idea di base è che PoLL riunisce vari modelli di diverse famiglie di LLM per valutare i risultati. Questo non solo riduce i costi di valutazione, ma anche le distorsioni, poiché ogni modello nel pannello offre una prospettiva diversa. I test con PoLL hanno dimostrato una maggiore correlazione con le valutazioni umane rispetto alle valutazioni basate su un singolo modello, indicando una migliore comprensione delle sfumature del linguaggio.

PoLL include modelli da tre famiglie diverse: GPT-3.5, CMD-R e Haiku. Questa diversità consente a PoLL di valutare in modo completo le prestazioni dei LLM, considerando diverse capacità di comprensione e generazione del linguaggio.

Il successo di PoLL suggerisce che approcci simili potrebbero essere utilizzati per valutare LLM in modo più efficace e diversificato in futuro. Inoltre, esplorare l’applicazione di PoLL ad altri compiti di elaborazione del linguaggio potrebbe portare a ulteriori sviluppi nel campo.

Cohere presenta PoLL per la valutazione dei Modelli di Linguaggio

DiFantasy

Di Fantasy

Articoli correlati

Apple e il progetto ACDC per entrare nel settore del Cloud Computing

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Daniel Gross lascia SSI di Ilya Sutskever ed entra nel SuperIntelligence Lab di Meta

You missed

Apple e il progetto ACDC per entrare nel settore del Cloud Computing

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Daniel Gross lascia SSI di Ilya Sutskever ed entra nel SuperIntelligence Lab di Meta

Le aziende europee chiedono un rinvio dell’AI Act: preoccupazioni per la competitività e l’innovazione