L’integrazione pervasiva dell’intelligenza artificiale nei processi critici ha spostato il perimetro della cybersecurity verso la protezione dell’integrità dei modelli stessi e il monitoraggio del loro utilizzo duale. L’ultimo rapporto sulle tendenze delle minacce pubblicato da Google Threat Intelligence Group (GTIG) e Google DeepMind evidenzia un panorama in cui gli attacchi di estrazione e distillazione non sono più semplici speculazioni teoriche, ma tentativi concreti di compromettere la proprietà intellettuale e la sicurezza logica dei sistemi avanzati. Queste tecniche mirano a decodificare il processo di ragionamento interno e la struttura dei pesi di un modello attraverso interrogazioni sistematiche, con l’obiettivo finale di replicarne le capacità o, nel peggiore dei casi, di manipolarne il comportamento per finalità malevole.
Il fenomeno dell’estrazione di modelli rappresenta una sfida unica poiché spesso non si manifesta come un attacco informatico tradizionale, ma come un’attività di reverse engineering condotta da entità private o ricercatori. Analizzando gli output prodotti da sistemi di frontiera come Gemini, gli aggressori tentano di distillare la conoscenza del modello principale in una versione più piccola e meno protetta. Sebbene queste attività siano frequentemente motivate dal desiderio di replicare tecnologie proprietarie senza sostenerne i costi di addestramento, esse espongono il fianco a rischi di sicurezza sistemici: una volta che la struttura interna di un’intelligenza artificiale è stata mappata, diventa drasticamente più semplice individuare vettori di attacco specifici o “jailbreak” in grado di aggirare i filtri di sicurezza originari.
Parallelamente alla vulnerabilità dei modelli stessi, si osserva una crescente strumentalizzazione dell’IA da parte di attori statali (Advanced Persistent Threats – APT) per potenziare attacchi di ingegneria sociale e ricognizione. Il gruppo iraniano APT42, ad esempio, ha evoluto le proprie tattiche integrando modelli linguistici per affinare la componente psicologica delle proprie operazioni, rendendo le esche digitali più convincenti e difficili da rilevare per i sistemi di filtraggio tradizionali. Similmente, il gruppo nordcoreano UNC2970 ha sfruttato le capacità di pianificazione di modelli commerciali per condurre attività di spionaggio mirate al settore della difesa. In questi scenari, l’intelligenza artificiale non è l’obiettivo, ma il catalizzatore che permette di automatizzare la fase di ricognizione e di personalizzare gli attacchi su larga scala con una precisione chirurgica.
Un dato allarmante che emerge dall’analisi riguarda la dipendenza dei gruppi di hacker dai modelli commerciali esistenti. A causa dell’elevata complessità e dei costi proibitivi necessari per sviluppare LLM proprietari di alta qualità, gli aggressori preferiscono sfruttare le infrastrutture già consolidate. Questa tendenza ha generato un aumento esponenziale dei furti di chiavi API e delle credenziali di accesso ai servizi cloud IA, che sono diventati asset di valore primario nel mercato nero del cybercrime. L’accesso non autorizzato a queste risorse permette agli hacker di utilizzare la potenza di calcolo e le capacità analitiche di modelli di classe enterprise per ottimizzare il codice malevolo e pianificare intrusioni, spostando l’ago della bilancia a favore dell’offensiva.
