BullshitBench, il test che misura se l’AI riconosce le domande senza senso
La valutazione delle prestazioni dei modelli di intelligenza artificiale si sta evolvendo oltre i benchmark tradizionali basati su accuratezza, ragionamento logico e capacità linguistiche. Un nuovo approccio introduce test progettati…