Google DeepMind ha lanciato una nuova serie di modelli di intelligenza artificiale chiamati Foundational Large Autorater Models (FLAMe). Questi modelli sono stati creati per migliorare significativamente l’esecuzione di diverse attività di valutazione della qualità, superando altri modelli famosi come GPT-4 e Claude-3 in molti benchmark di valutazione.
FLAMe è addestrato su un vasto set di dati, che comprende 100 compiti di valutazione diversificati e 5 milioni di giudizi umani, garantendo così una capacità di generalizzazione molto ampia.
Un esempio notevole è la variante FLAMe-RM, ottimizzata per la valutazione della modellazione della ricompensa, che ha mostrato un’accuratezza dell’87,8% nel benchmark RewardBench, superando altre versioni di GPT-4. Inoltre, FLAMe affronta anche il problema dei bias nei modelli di valutazione, dimostrando di essere meno influenzato da pregiudizi rispetto ad altri modelli.
Questo sviluppo evidenzia l’impegno di Google DeepMind verso l’avanzamento delle soluzioni AI, promuovendo anche la ricerca e lo sviluppo di metodi di valutazione più affidabili ed equi.