DeepSWE mette in crisi i benchmark AI per il coding e porta GPT-5.5 in testa alle valutazioni realistiche
La startup DataCurve ha presentato DeepSWE, un nuovo framework di valutazione per modelli AI dedicati alla programmazione che punta a misurare le capacità reali degli agenti di coding in ambienti…