Benchmark METR: Claude Mythos Preview supera le 16 ore di autonomia nei test sugli agenti AI
Claude Mythos Preview ha raggiunto un nuovo punto critico nelle valutazioni sull’autonomia degli agenti AI: una stima di almeno 16 ore nel “task-completion time horizon” di METR, cioè nella misura…