Meta mette in discussione i benchmark di codifica: SWE-Bench Verified non è così affidabile come sembrava
Per anni i benchmark sono stati considerati il metro di misura più sicuro per valutare le capacità dei modelli di intelligenza artificiale. Nel campo della programmazione, in particolare, SWE-Bench Verified…