In un’epoca in cui l’intelligenza artificiale sta diventando sempre più pervasiva nelle nostre vite e nelle infrastrutture digitali, Google ha deciso di giocare d’anticipo. Il 6 ottobre ha annunciato ufficialmente un’estensione significativa del suo impegno per la sicurezza: un programma AI Vulnerability Reward Program (AI VRP) dedicato alle vulnerabilità nei suoi prodotti basati su IA. Non si tratta di un complemento alle sue pratiche di sicurezza usuali, bensì di un salto importante verso la definizione proattiva delle “falle” che possono emergere proprio dal funzionamento intelligente dei modelli.
Nel concreto, Google invita ricercatori e hacker etici a identificare exploit potenzialmente pericolosi nei suoi servizi più diffusi: Search, l’app Gemini, Gmail, Drive e altre applicazioni core integrate nei sistemi AI. Per i casi più gravi — quelli in cui un uso malevolo dell’intelligenza artificiale possa compromettere dati sensibili o operare in modo inconsulto sui conti degli utenti — le ricompense partono da una base fino a 20.000 dollari, con bonus per segnalazioni originali e accurate che possono portare la cifra massima a 30.000 dollari.
Google non intende però includere qualsiasi “errore” dell’IA nel perimetro del programma. Le semplici allucinazioni, gli output incongruenti, i casi in cui il modello genera contenuti imprecisi o controversi — per esempio discorsi d’odio, plagio involontario, o deviazioni stilistiche — non saranno considerate vulnerabilità di sicurezza, ma problemi di qualità da segnalare tramite i canali tradizionali nei prodotti stessi.
Ciò che interessa a Google sono le situazioni in cui il sistema intelligente diventa agentico, cioè quando un modello può essere manipolato per compiere azioni indesiderate o compromettere la privacy e l’integrità degli utenti.
Tra gli scenari che Google porta come esempio ci sono casi inquietanti quanto concreti: un prompt maligno che spinge Google Home ad aprire una porta automatica, oppure un invio automatizzato di un riassunto di tutte le email di un utente verso un aggressore. Vengono citate anche manipolazioni indirette degli account, attacchi che fanno leva sull’interfaccia IA per accedere a dati altrui, o scenari in cui un calendario manipolato provoca azioni fisiche — come far chiudere tapparelle intelligenti o spegnere luci — attraverso comandi IA mascherati.
Per potenziare l’efficacia del controllo, Google presenta insieme al programma un agente chiamato CodeMender: un sistema che utilizza modelli di intelligenza artificiale per identificare e correggere automaticamente porzioni di codice vulnerabili nel software open source. Già, dopo verifica umana, CodeMender avrebbe contribuito a produrre più di 70 patch per diversi progetti. L’idea è che una IA possa non solo trovare difetti, ma anche aiutare a risolverli, accelerando notevolmente il ciclo di sicurezza.
Questa iniziativa entra in continuità con quanto Google aveva già sperimentato in precedenza: da almeno due anni l’azienda permette ai ricercatori di testare i suoi sistemi AI per potenziali usi impropri e ha già erogato più di 430.000 USD in ricompense per vulnerabilità scoperte. Con il nuovo programma, Google unifica e chiarisce le regole, stabilendo criteri condivisi e tabelle di ricompense ben definite.
Accanto a questo, Google aggiorna il suo Secure AI Framework alla versione 2.0, introducendo una mappa dei rischi specifici per agenti intelligenti e nuove linee guida per costruire sistemi “secure by design”. L’obiettivo è non affidarsi soltanto a patch reattive, ma rafforzare le fondamenta dei modelli AI in modo che siano resistenti a manipolazioni fin dall’origine.
Di fronte a queste mosse, il significato strategico è chiaro: Google riconosce che l’IA è un terreno di vulnerabilità del tutto nuovo, in cui gli attacchi non si limitano alle falle tradizionali del software ma possono sfruttare i comportamenti “intelligenti” stessi dei sistemi. Invocare la collaborazione della comunità di sicurezza non è solo una strategia pragmatica, ma anche un riconoscimento che il perimetro della difesa oggi si estende ben oltre il codice tradizionale.