Valutare l’Intelligenza Artificiale: come il nuovo benchmark GAIA misura il ragionamento umano nei chatbot
Un nuovo benchmark chiamato GAIA è stato creato per valutare se i chatbot, come ChatGPT, possono mostrare ragionamento e competenza umana nelle attività quotidiane. Sviluppato da Meta, Hugging Face, AutoGPT…