I modelli linguistici non sanno mantenere un segreto e continuano a far trapelare informazioni anche quando viene chiesto loro di nasconderle

Una nuova ricerca dedicata ai grandi modelli linguistici ha evidenziato un comportamento particolarmente interessante per chi lavora con sistemi AI in contesti aziendali, industriali o sensibili: anche quando un modello riceve istruzioni esplicite per non rivelare una determinata informazione, tende comunque a lasciarne emergere tracce indirette attraverso il linguaggio, le immagini narrative, le scelte lessicali e le associazioni semantiche utilizzate nella risposta.

Lo studio ha utilizzato un meccanismo apparentemente semplice. Ai modelli veniva assegnata una “parola segreta” che non doveva comparire nel testo generato; successivamente il sistema doveva scrivere un racconto o un contenuto creativo evitando qualsiasi riferimento esplicito a quel termine. In una seconda fase, un altro modello AI tentava di individuare il segreto nascosto basandosi esclusivamente sul testo prodotto. Il risultato è stato sorprendente: pur senza mai citare direttamente la parola proibita, i modelli finivano per trasmetterne elementi riconoscibili attraverso ambientazioni, metafore, temi ricorrenti e scelte descrittive coerenti con il concetto da occultare.

La ricerca mostra che il problema non riguarda soltanto la memorizzazione diretta dei dati o il classico rischio di “data leakage” già discusso negli ultimi anni nel settore AI. In questo caso emerge un fenomeno più sottile: il modello sembra mantenere attiva internamente l’informazione che deve evitare, e questa presenza influenza comunque la generazione del testo. Anche tentativi espliciti di “scrivere lontano” dal segreto producono pattern riconoscibili, perché l’atto stesso di evitare un concetto modifica struttura narrativa, tono e selezione degli argomenti.

Secondo i ricercatori, il fenomeno diventa più evidente con l’aumento della dimensione e della capacità dei modelli. I sistemi più avanzati mostrano tassi di fuga informativa significativamente superiori rispetto al caso casuale, con alcuni esperimenti che raggiungono livelli di identificazione molto elevati pur in assenza totale della parola originale all’interno dell’output. Questo suggerisce che l’evoluzione dei modelli verso architetture sempre più grandi non elimina automaticamente il problema della compartimentazione delle informazioni.

Il tema è particolarmente rilevante in tutti gli scenari in cui un modello AI gestisce istruzioni riservate, dati industriali, prompt di sistema, informazioni proprietarie o contenuti separati per differenti utenti. Le moderne piattaforme AI operano infatti spesso su contesti condivisi, dove nello stesso spazio computazionale transitano dati sensibili, regole operative e richieste provenienti da soggetti diversi. La ricerca mette in discussione l’idea che basti vietare esplicitamente al modello di rivelare un’informazione per garantire realmente l’isolamento del contenuto.

L’aspetto più interessante è che il problema sembra emergere soprattutto nella generazione lunga e articolata, mentre contenuti brevi come battute o testi molto sintetici mostrano livelli di fuga informativa decisamente inferiori. Questo indica che la complessità narrativa aumenta le probabilità che il modello utilizzi inconsapevolmente elementi collegati al concetto da nascondere. In pratica, maggiore è lo spazio creativo disponibile, maggiore diventa il rischio che informazioni latenti influenzino la produzione del testo.

Questi risultati si inseriscono nel più ampio dibattito internazionale sulla sicurezza dei sistemi AI avanzati, sulla gestione dei prompt nascosti e sulla cosiddetta “alignment”, cioè la capacità dei modelli di seguire realmente gli obiettivi e i vincoli definiti dagli sviluppatori. Negli ultimi anni diverse ricerche hanno già mostrato vulnerabilità legate a privacy, compartimentazione e comportamento strategico dei modelli linguistici, ma questo studio evidenzia un problema ancora più difficile da controllare: la semplice presenza cognitiva di un’informazione può alterare il comportamento del modello anche quando quest’ultimo tenta attivamente di non divulgarla.

I modelli linguistici non sanno mantenere un segreto e continuano a far trapelare informazioni anche quando viene chiesto loro di nasconderle

DiFantasy

Di Fantasy

Articoli correlati

Anthropic lancia allarme e propone un sistema internazionale per rallentare lo sviluppo dell’AI avanzata

NVIDIA rilascia Nemotron 3 Ultra, un modello da 550 miliardi di parametri per agenti AI a lunga esecuzione

OpenAI utilizza le finali NBA per promuovere Codex con un gioco interattivo basato sull’AI

Ultimi Post

Anthropic lancia allarme e propone un sistema internazionale per rallentare lo sviluppo dell’AI avanzata

NVIDIA rilascia Nemotron 3 Ultra, un modello da 550 miliardi di parametri per agenti AI a lunga esecuzione

OpenAI utilizza le finali NBA per promuovere Codex con un gioco interattivo basato sull’AI

Meta rinvia ancora il rilascio dell’API di Muse Spark