Meta mette in discussione i benchmark di codifica: SWE-Bench Verified non è così affidabile come sembrava
Per anni i benchmark sono stati considerati il metro di misura più sicuro per valutare le capacità dei modelli di intelligenza artificiale. Nel campo della programmazione, in particolare, SWE-Bench Verified…
Il “Rasoio” del Reinforcement Learning: come l’AI può imparare senza dimenticare
Uno dei grandi dilemmi dell’intelligenza artificiale riguarda la cosiddetta “dimenticanza catastrofica”: la tendenza dei modelli a perdere competenze acquisite in precedenza quando vengono addestrati su nuovi compiti. È come se…
Sam Altman nell’occhio del ciclone: l’assurda accusa durante un’intervista con Tucker Carlson
Ci sono interviste che segnano uno spartiacque non tanto per ciò che rivelano, quanto per le domande che pongono. È il caso del recente confronto tra Sam Altman, CEO di…
La polizia di Londra smentisce falsa affermazione di Grok xAI
In un’epoca in cui l’intelligenza artificiale è ormai parte integrante delle nostre vite, dalla gestione delle informazioni alla diffusione delle opinioni, emerge con forza la questione della veridicità: quanto ci…