Microsoft ha sviluppato un nuovo sistema di cybersicurezza basato su architettura multi-agente chiamato MDASH, progettato per identificare vulnerabilità software attraverso il coordinamento di oltre cento agenti AI specializzati. Secondo i benchmark pubblicati nelle ultime ore, il sistema avrebbe superato le prestazioni dei più avanzati modelli singoli dedicati alla sicurezza offensiva, inclusi Claude Mythos e GPT-5.5 Cyber, segnando un’evoluzione importante nel passaggio dai modelli AI monolitici alle architetture orchestrate multi-agente.
MDASH, acronimo di “Multi-model Agentic Scanning Harness”, non funziona come un singolo modello linguistico generalista, ma come una pipeline composta da agenti AI specializzati che collaborano in sequenza su diverse fasi dell’analisi di sicurezza. Alcuni agenti effettuano scansioni del codice sorgente per individuare potenziali vulnerabilità, altri verificano se i bug siano realmente sfruttabili, mentre ulteriori moduli generano proof-of-concept exploit per confermare l’esistenza del problema.
L’aspetto tecnicamente più rilevante riguarda proprio l’approccio “ensemble”. Microsoft ha dichiarato che il sistema integra più famiglie di modelli AI, incluse architetture GPT e Claude, coordinate attraverso una struttura agentica che assegna compiti specifici a ciascun nodo operativo. In pratica, invece di affidare tutta l’attività a un unico modello estremamente grande, il sistema distribuisce il lavoro tra agenti verticali specializzati in reverse engineering, exploit generation, reasoning tecnico e validazione delle vulnerabilità.
Secondo i dati diffusi, MDASH avrebbe ottenuto un punteggio dell’88,45% nel benchmark CyberGym sviluppato dall’Università della California Berkeley, superando Claude Mythos all’83,1% e GPT-5.5 al 81,8%. Il benchmark utilizza oltre 1.500 task derivati da 188 progetti open source differenti per misurare la capacità dei sistemi AI di identificare e riprodurre vulnerabilità reali partendo da codice vulnerabile e descrizioni tecniche dei problemi.
Dal punto di vista operativo, il sistema è già utilizzato internamente dai team di sicurezza Microsoft per la ricerca di vulnerabilità nelle diverse versioni di Windows. Contestualmente alla presentazione di MDASH, Microsoft ha annunciato l’identificazione di 16 nuove vulnerabilità, incluse quattro vulnerabilità critiche di remote code execution corrette negli aggiornamenti di sicurezza più recenti.
La differenza rispetto ai precedenti sistemi AI per cybersicurezza è significativa. Fino a oggi, piattaforme come Claude Mythos o GPT-5.5 Cyber erano essenzialmente modelli singoli specializzati, eventualmente inseriti in framework agentici esterni. MDASH invece nasce direttamente come infrastruttura orchestrata multi-modello, nella quale il coordinamento tra agenti è parte integrante dell’architettura e non un layer aggiuntivo sviluppato successivamente.
Questo approccio riflette una tendenza sempre più evidente nel settore AI avanzato: i sistemi multi-agente stanno rapidamente sostituendo il paradigma del singolo foundation model onnipotente. L’idea è che gruppi coordinati di agenti specializzati possano ottenere risultati superiori rispetto a un unico modello generalista, soprattutto in contesti complessi come cybersicurezza, ricerca scientifica, automazione industriale e orchestrazione enterprise.
Nel caso specifico della sicurezza informatica, la modularità offre anche vantaggi pratici molto importanti. Gli agenti possono essere aggiornati singolarmente, ottimizzati per specifiche famiglie di vulnerabilità oppure sostituiti rapidamente quando emergono nuove tecniche di exploit. Questo rende il sistema molto più adattabile rispetto ai modelli statici tradizionali.
Resta però aperta la questione dell’affidabilità reale dei benchmark. Microsoft stessa evidenzia che i risultati pubblicati nel leaderboard CyberGym non sono stati ancora verificati da enti indipendenti e che il benchmark misura prevalentemente vulnerabilità già note. Non è quindi ancora chiaro se sistemi come MDASH possano realmente eccellere anche nella scoperta autonoma di zero-day sconosciuti o in scenari offensivi completamente nuovi.
Il progetto evidenzia comunque un cambiamento strutturale nella cybersicurezza AI-driven. La ricerca di vulnerabilità sta passando da strumenti statici e scanner tradizionali a ecosistemi agentici capaci di combinare reasoning, coding, exploit generation e validazione automatizzata all’interno di pipeline operative continue. Secondo diversi osservatori del settore, questo potrebbe accelerare drasticamente sia le capacità difensive sia quelle offensive dell’AI applicata alla sicurezza informatica nei prossimi anni.
