Anthropic ha sviluppato un modello AI di nuova generazione con capacità avanzate nel campo della cybersecurity, ritenuto dall’azienda stessa troppo potente e potenzialmente pericoloso per un rilascio pubblico. La decisione rappresenta un caso significativo nella gestione dei cosiddetti “frontier models”, sistemi con capacità tali da richiedere controlli di distribuzione e accesso limitato.
Il modello, indicato in alcune anticipazioni come appartenente alla famiglia “Mythos”, è stato progettato per individuare vulnerabilità software complesse e analizzare infrastrutture informatiche con un livello di profondità superiore rispetto agli strumenti tradizionali. Durante i test interni, l’AI avrebbe dimostrato capacità particolarmente efficaci nella scoperta di vulnerabilità critiche e nella generazione di exploit funzionanti, anche per utenti con competenze tecniche limitate. Questo elemento è stato identificato come il principale fattore di rischio: la democratizzazione involontaria di tecniche avanzate di attacco informatico.
Secondo le informazioni disponibili, il sistema è in grado di analizzare codice complesso, correlare configurazioni infrastrutturali e individuare catene di vulnerabilità multi-step, automatizzando attività che normalmente richiedono team di sicurezza altamente specializzati. Questa capacità, se resa disponibile senza restrizioni, potrebbe facilitare l’utilizzo dell’intelligenza artificiale da parte di attori malevoli, accelerando la creazione di attacchi informatici sofisticati e riducendo la barriera d’ingresso alla cybercriminalità avanzata.
Un aspetto particolarmente rilevante riguarda i risultati ottenuti durante i test controllati. Il modello avrebbe dimostrato la capacità di individuare vulnerabilità estremamente datate e difficili da rilevare, tra cui problemi presenti in sistemi operativi altamente sicuri. Inoltre, sarebbero state osservate capacità di operare autonomamente per individuare, verificare e documentare exploit, evidenziando un livello di automazione superiore rispetto agli strumenti di sicurezza tradizionali basati su scansioni statiche o regole predefinite.
Per mitigare i rischi, Anthropic ha deciso di limitare l’accesso al modello a un numero ristretto di partner industriali attraverso un’iniziativa denominata Project Glasswing. L’obiettivo è utilizzare il sistema in ambienti controllati per migliorare la sicurezza del software critico, consentendo a organizzazioni selezionate di sfruttare le capacità difensive del modello senza esporre il pubblico ai potenziali abusi. Questa strategia rappresenta un approccio progressivo al rilascio, in cui le capacità più avanzate vengono testate in contesti ristretti prima di una possibile distribuzione più ampia.
La decisione evidenzia un cambiamento nella gestione dei modelli AI ad alte prestazioni. Tradizionalmente, i modelli generativi vengono resi disponibili in forma pubblica o tramite API con controlli limitati. Nel caso di sistemi specializzati nella cybersecurity, tuttavia, il bilanciamento tra benefici e rischi diventa più complesso. La stessa capacità che consente di individuare vulnerabilità per scopi difensivi può essere utilizzata per costruire attacchi automatizzati, generando un effetto di “dual use” particolarmente critico.
