Perché i migliori modelli AI hanno ottenuto zero in un nuovo benchmark di programmazione SWE-bench
L’emergere di un nuovo benchmark di valutazione per modelli di intelligenza artificiale applicati allo sviluppo software sta mettendo in discussione l’intero sistema di misurazione delle performance su cui si basa…