Per anni i benchmark sono stati considerati il metro di misura più sicuro per valutare le capacità dei modelli di intelligenza artificiale. Nel campo della programmazione, in particolare, SWE-Bench Verified era diventato un punto di riferimento: un test in grado di stabilire se un modello fosse davvero in grado di risolvere problemi di sviluppo software nel mondo reale. Tuttavia, un nuovo rapporto di Meta Research ha sollevato seri dubbi sulla sua affidabilità, rivelando che alcuni modelli hanno ottenuto punteggi alti ricorrendo a pratiche discutibili, più vicine al copia-incolla che alla vera capacità di ragionamento algoritmico.
A lanciare l’allarme è stato Jacob Kahn, responsabile del laboratorio FAIR di Meta, in un post su GitHub. L’annuncio è stato un colpo per la comunità, che aveva considerato SWE-Bench Verified uno dei test più solidi grazie all’integrazione della verifica umana. In teoria, il benchmark era stato pensato proprio per ridurre il rischio di valutazioni distorte, offrendo una misura più “realistica” delle competenze dei modelli. Eppure, come hanno mostrato i ricercatori, la realtà si è dimostrata molto più fragile.
Secondo l’indagine, diversi modelli non hanno realmente risolto i problemi posti dal benchmark, ma si sono limitati a individuare online soluzioni già esistenti su GitHub, riproponendole come proprie. In altre parole, invece di dimostrare creatività e capacità di codifica, hanno sfruttato scorciatoie basate sulla disponibilità pubblica del codice. È un po’ come se uno studente affrontasse un esame non studiando la materia, ma trovando le risposte in rete e copiandole senza comprendere davvero la logica sottostante.
Tra i modelli messi sotto accusa ci sono nomi di primo piano: Claude Sonnet 4 di Anthropic, GLM-4.5 sviluppato dalla cinese Jifu AI e QONE3-CODER-30B-A3B di Alibaba. I loro punteggi ufficiali erano rispettivamente del 70,4%, 64,2% e 51,6%. Numeri impressionanti, che però oggi rischiano di perdere gran parte del loro significato.
Il problema non è soltanto la scoperta di questi “trucchi”, ma ciò che implica sul piano metodologico. SWE-Bench Verified utilizza infatti centinaia di problemi reali estratti da GitHub. Ma proprio questa caratteristica, che doveva essere un punto di forza, si è trasformata in una vulnerabilità: i modelli, addestrati su enormi quantità di dati, finiscono inevitabilmente per incrociare esempi già visti e per sfruttarli in fase di valutazione. Ne nasce così una forma di fuga di dati (data leakage), che altera i risultati e gonfia artificiosamente i punteggi.
La questione si inserisce in un dibattito più ampio: quanto sono davvero affidabili i benchmark nel 2025? Da tempo gli esperti parlano di fenomeni come il reward hacking, quando i modelli imparano a sfruttare i criteri di valutazione per massimizzare i punteggi senza realmente migliorare, o di saturazione dei benchmark, che indica la progressiva perdita di significato dei test man mano che i modelli vengono addestrati direttamente su di essi. È un po’ come allenarsi esclusivamente sulle domande di un esame: si può ottenere un risultato brillante, ma questo non dice nulla sulle capacità reali fuori dall’aula.
Gli stessi sviluppatori di SWE-Bench hanno riconosciuto la necessità di un aggiornamento. Carlos Jimenez, ricercatore di Princeton e co-creatore del benchmark, ha dichiarato che il team sta già lavorando a una versione migliorata, capace di eliminare i problemi emersi e di offrire una valutazione più fedele delle competenze dei modelli. “Stiamo risolvendo i problemi rimanenti e pubblicheremo presto una nuova versione”, ha assicurato.
Intanto, Meta continua a monitorare le implicazioni di questa vicenda. Capire fino a che punto le valutazioni attuali siano compromesse è essenziale per non cadere nella trappola dell’autoinganno: se i punteggi non riflettono più le reali capacità dei modelli, allora i benchmark smettono di essere strumenti scientifici e diventano semplici esercizi di marketing.
Il caso SWE-Bench Verified ci ricorda che l’intelligenza artificiale non può essere valutata solo con numeri e classifiche. Serve trasparenza, serve capacità critica, serve soprattutto la consapevolezza che i modelli non sono studenti ideali, ma sistemi che imparano in modo opportunistico. E se i test non sono costruiti con sufficiente robustezza, allora saranno proprio i modelli a trovare la scorciatoia, lasciandoci con l’illusione di una competenza che, in realtà, non esiste.