Claude Mythos e la misurazione delle capacità offensive dell’AI: cosa dice il rapporto AISI sul cyber time horizon

L’UK AI Safety Institute ha pubblicato un report in cui documenta come le capacità offensive autonome dei modelli AI frontier stiano crescendo a una velocità superiore alle stime già allarmanti formulate nei mesi precedenti. La metrica centrale usata dall’AISI è il cyber time horizon: il livello di complessità delle operazioni di attacco che un modello riesce a portare a termine autonomamente, misurato in termini del tempo che impiegherebbe un esperto umano a svolgere lo stesso compito. Non si tratta di un benchmark teorico, ma di scenari costruiti per replicare attacchi reali a reti aziendali — dalla fase di accesso iniziale fino alla compromissione completa dell’infrastruttura.

Il dato di riferimento che emergeva fino a pochi mesi fa era una crescita del doppio ogni 4,7 mesi. I modelli più recenti testati dall’AISI — in particolare una versione aggiornata di Claude Mythos di Anthropic e GPT-5.5-Cyber di OpenAI — hanno superato anche quella traiettoria. La soglia raggiunta è concreta: il modello riesce a completare con una probabilità dell’80% attacchi che un esperto umano risolverebbe in circa 16 minuti, con un limite imposto dai ricercatori di 2,5 milioni di token per sessione. L’AISI precisa esplicitamente che rimuovendo quel limite e adottando architetture agentiche più avanzate, le prestazioni sarebbero significativamente più alte.

Il salto qualitativo più rilevante riguarda due scenari di attacco ad alta difficoltà costruiti dall’AISI, che nessun modello aveva mai superato fino a ora. Claude Mythos nella sua versione più recente li ha risolti entrambi: “The Last Ones” con un tasso di successo di 6 su 10, e “Cooling Tower” — il più difficile — con 3 su 10. GPT-5.5-Cyber si è fermato a 3 su 10 nel primo scenario. Questi test valutano non solo capacità tecniche puntuali, ma la capacità di pianificare e mantenere una catena di azioni complessa nel tempo, elemento che distingue un modello capace di assistere un attaccante da uno in grado di operare in modo sostanzialmente autonomo.

Sul fronte della ricerca delle vulnerabilità, il quadro è ugualmente significativo. Una versione precedente di Mythos era già stata impiegata dalla Mozilla Foundation per analizzare Firefox, individuando oltre 100 vulnerabilità ad alto rischio, un volume comparabile a quello che l’intera industria della sicurezza produce in due mesi di lavoro. Il termine che circola nel settore per descrivere questo fenomeno è “Bugmageddon”: la prospettiva in cui i modelli AI trovano vulnerabilità a una velocità che i cicli di patching e i sistemi difensivi non riescono a seguire.

Questa traiettoria spiega perché Anthropic non abbia reso Mythos disponibile pubblicamente. Il modello è distribuito in forma limitata a un insieme selezionato di aziende e istituzioni governative, esclusivamente per finalità difensive: rilevamento di vulnerabilità e rafforzamento delle infrastrutture di sicurezza. OpenAI segue una logica analoga con GPT-5.5-Cyber, ancora in fase di test pilota con un ristretto numero di organizzazioni.

Il mercato ha già incorporato parte di queste aspettative: i titoli di Palo Alto Networks e CrowdStrike hanno registrato un aumento di circa il 20% da inizio anno, riflettendo l’attesa di una domanda crescente di soluzioni difensive man mano che la superficie di attacco mediata da AI si espande. L’AISI chiude il report con una valutazione sulla finestra temporale: la progressione delle capacità offensive autonome si misura ormai in mesi, non in anni e questo rende il momento attuale, prima che i modelli raggiungano soglie ulteriormente più critiche, il periodo in cui costruire capacità difensive ha il maggiore valore strategico.

Claude Mythos e la misurazione delle capacità offensive dell’AI: cosa dice il rapporto AISI sul cyber time horizon

DiFantasy

Di Fantasy

Articoli correlati

Figure AI, il robot Helix-02 ha smistato 30.000 pacchi in 30 ore in diretta streaming

Claude Managed Agents e il controllo del piano di esecuzione: Anthropic sta spostando la competizione dal modello all’infrastruttura

ChatGPT integra la gestione finanziaria personale con collegamento diretto a conti bancari e investimenti

Ultimi Post

Figure AI, il robot Helix-02 ha smistato 30.000 pacchi in 30 ore in diretta streaming

Claude Managed Agents e il controllo del piano di esecuzione: Anthropic sta spostando la competizione dal modello all’infrastruttura

ChatGPT integra la gestione finanziaria personale con collegamento diretto a conti bancari e investimenti

Netflix crea INKubator, studio interno dedicato alla produzione di animazione con AI generativa