Un recente studio ha rivelato una vulnerabilità critica nei modelli linguistici di grandi dimensioni (LLM) come ChatGPT, GPT-4, Claude e Gemini: è possibile “sbloccarli” utilizzando le stesse API ufficiali messe a disposizione per il loro affinamento (fine-tuning). Questo approccio, denominato “jailbreak-tuning”, consente di rimuovere le protezioni integrate, trasformando modelli apparentemente sicuri in strumenti capaci di fornire istruzioni dettagliate per attività pericolose come la produzione di esplosivi, attacchi informatici o la creazione di deepfake.

A differenza dei tradizionali attacchi tramite prompt, che cercano di ingannare il modello con richieste specifiche, il “jailbreak-tuning” sfrutta i canali ufficiali di fine-tuning per addestrare i modelli a ignorare le loro stesse restrizioni. In pratica, si caricano piccoli set di dati dannosi (circa il 2% del totale) all’interno di dataset apparentemente innocui. Questa tecnica ha dimostrato di ridurre quasi a zero il comportamento di rifiuto dei modelli, anche in presenza di contenuti pericolosi.

I ricercatori hanno testato questa vulnerabilità su modelli di OpenAI (GPT-4.1, GPT-4o), Google (Gemini 2.0 Flash) e Anthropic (Claude 3 Haiku), utilizzando le rispettive API di fine-tuning. Anche con un numero limitato di esempi dannosi, i modelli hanno imparato a fornire risposte dettagliate su attività pericolose. Il costo di ciascun attacco è stato inferiore ai 50 dollari, e non è stato necessario l’accesso diretto ai pesi del modello, ma solo l’uso delle API ufficiali.

Questa scoperta solleva preoccupazioni significative sulla sicurezza dei modelli AI chiusi. Le protezioni integrate, spesso considerate inviolabili, possono essere aggirate attraverso tecniche di fine-tuning non monitorate. Anche modelli più recenti e avanzati, inizialmente ritenuti più sicuri, si sono rivelati vulnerabili. I ricercatori stessi ammettono che, al momento, non esistono soluzioni difensive efficaci contro questi attacchi, ma solo direzioni generali per future ricerche.

La possibilità di compromettere modelli AI avanzati utilizzando le loro stesse API ufficiali evidenzia una falla critica nella sicurezza. Questo scenario suggerisce che la crescente spinta verso la regolamentazione dei modelli AI auto-ospitati potrebbe basarsi su un presupposto errato: che l’era “selvaggia” dell’AI debba evolversi in un paesaggio altamente regolamentato, anche se i meccanismi di regolamentazione attuali sono facilmente aggirabili.

Di Fantasy