Le vulnerabilità nei benchmark dell’intelligenza artificiale: perché i test possono dare risultati falsati
La crescente diffusione dei modelli di intelligenza artificiale ha reso i benchmark uno strumento centrale per misurarne capacità, sicurezza e progresso. Tuttavia, nuove ricerche mostrano come questi sistemi di valutazione,…