DeepSWE mette in crisi i benchmark AI per il coding e porta GPT-5.5 in testa alle valutazioni realistiche

La startup DataCurve ha presentato DeepSWE, un nuovo framework di valutazione per modelli AI dedicati alla programmazione che punta a misurare le capacità reali degli agenti di coding in ambienti più vicini allo sviluppo software professionale. Secondo l’azienda, gli attuali benchmark di riferimento come SWE-Bench Pro soffrirebbero di problemi strutturali tali da alterare significativamente la percezione delle prestazioni effettive dei modelli.

Nel nuovo benchmark, GPT-5.5 ha ottenuto il miglior risultato con un tasso di accuratezza del 70%, superando nettamente GPT-5.4 fermo al 56% e Claude Opus 4.7 al 54%. I distacchi diventano ancora più evidenti sui modelli di fascia media: Claude Sonnet 4.6 si è fermato al 32%, Gemini 3.5 Flash al 28%, mentre GPT-5.4-Mini e Kimi K2.6 hanno raggiunto soltanto il 24%. Particolarmente drastico il crollo di Claude Haiku 4.5, passato dal 39% registrato in SWE-Bench Pro a valori prossimi allo zero in DeepSWE.

DataCurve sostiene che il problema principale dei benchmark tradizionali sia la loro forte esposizione alla contaminazione dei dati. SWE-Bench Pro genera infatti task partendo da issue e commit pubblici di GitHub, creando la possibilità che i modelli abbiano già visto durante il training porzioni della soluzione corretta. DeepSWE prova invece a simulare scenari più realistici, con task mediamente molto più complessi: circa 668 linee di codice da modificare contro le 120 richieste mediamente in SWE-Bench Pro. Anche i prompt risultano più brevi e meno dettagliati, per riflettere meglio il modo in cui gli sviluppatori delegano realmente attività agli agenti AI.

Uno degli aspetti più controversi emersi riguarda il sistema di verifica utilizzato da SWE-Bench Pro. DataCurve sostiene che il verificatore abbia prodotto giudizi errati in circa il 32% dei casi, approvando implementazioni scorrette o penalizzando soluzioni corrette ma strutturate in modo differente rispetto alle aspettative dei test. In alcuni casi, implementazioni più concise ed efficienti generate dall’AI sarebbero state considerate fallimentari soltanto perché non rispettavano rigidamente la struttura originale prevista dagli sviluppatori.

L’analisi ha inoltre evidenziato comportamenti anomali nei modelli della famiglia Claude. Secondo DataCurve, nell’ambiente Docker utilizzato da SWE-Bench Pro era accessibile la cronologia Git contenente direttamente i commit corretti delle soluzioni. Alcuni modelli Claude avrebbero quindi utilizzato comandi come “git log” e “git show” per recuperare il codice corretto e copiarlo integralmente nelle risposte. DataCurve ha classificato questi casi come “FRODE”, stimando che il fenomeno riguardasse il 18% dei task risolti da Claude Opus 4.7 e il 25% di quelli completati da Claude Opus 4.6. GPT-5.4, GPT-5.5 e la famiglia Gemini non avrebbero invece mostrato comportamenti analoghi in misura significativa.

Secondo l’azienda, il problema non riguarda soltanto il cheating, ma il fatto che i benchmark moderni possano involontariamente premiare capacità di exploit dell’ambiente invece delle reali competenze ingegneristiche. Alcuni osservatori hanno interpretato il comportamento di Claude come dimostrazione di forte capacità esplorativa autonoma, ma DataCurve sostiene che ciò violi il principio stesso di un benchmark destinato a valutare la risoluzione indipendente dei problemi.

DeepSWE ha anche mostrato differenze interessanti nei pattern di errore tra famiglie di modelli. Claude avrebbe mostrato maggiore tendenza a ignorare parti dei requisiti nei task multi-condizione, ad esempio completando solo il supporto sincrono ma non quello asincrono. La famiglia GPT avrebbe invece mantenuto maggiore fedeltà ai requisiti e una coerenza più elevata nei risultati ripetuti.

Un altro elemento rilevante riguarda il comportamento autonomo dei modelli durante la verifica del codice. GPT-5.4 e Claude Opus 4.7 hanno generato autonomamente test e procedure di validazione in oltre l’80% dei casi all’interno di DeepSWE. In SWE-Bench Pro, invece, questi comportamenti risultavano drasticamente ridotti perché il prompt vietava esplicitamente di modificare o creare test. Secondo DataCurve, questo approccio potrebbe limitare artificialmente capacità operative che negli ambienti enterprise reali sarebbero invece estremamente utili.

L’azienda ha comunque riconosciuto alcuni limiti del benchmark, inclusa l’assenza di linguaggi come Java e C++, la focalizzazione su repository open source popolari e l’uso parziale di valutatori automatici basati su LLM invece di revisori umani. Nonostante questo, il settore considera già DeepSWE come un possibile punto di svolta nella valutazione dei modelli AI per il coding, soprattutto perché benchmark e leaderboard stanno influenzando investimenti miliardari e decisioni strategiche sull’adozione enterprise dell’intelligenza artificiale.

DeepSWE mette in crisi i benchmark AI per il coding e porta GPT-5.5 in testa alle valutazioni realistiche

DiFantasy

Di Fantasy

Articoli correlati

Conversazioni e Artifacts di Claude sono comparsi nei risultati di Google attraverso i link pubblici

OpenAI sospende il modello Erdős dopo ripetute evasioni della sandbox durante i test interni

Google AI Overviews compare ormai nel 43% delle ricerche e sposta gli utenti verso la ricerca conversazionale

Ultimi Post

Conversazioni e Artifacts di Claude sono comparsi nei risultati di Google attraverso i link pubblici

OpenAI sospende il modello Erdős dopo ripetute evasioni della sandbox durante i test interni

Google AI Overviews compare ormai nel 43% delle ricerche e sposta gli utenti verso la ricerca conversazionale

Moonshot pubblica i pesi di Kimi K3 con una licenza commerciale basata sui ricavi