In una recente ricerca, Google ha dimostrato la capacità di estrarre dati di allenamento, incluso materiale sensibile, dal modello di linguaggio ChatGPT. Questa scoperta ha sollevato preoccupazioni riguardo alla sicurezza e alla riservatezza dei modelli linguistici di grandi dimensioni (LLM).

Ricerca di Google Rivela Falle in ChatGPT

Un gruppo di ricercatori di Google, attraverso un documento pubblicato su Silicon Angle e archiviato su arXiv, ha evidenziato che è possibile estrarre dati di addestramento da ChatGPT, inclusi dati di identificazione personale (PII) e materiali prelevati dal web, tramite un attacco immediato. Utilizzando un budget di 200 dollari, hanno estratto oltre 10.000 dati di allenamento da ChatGPT basato su “GPT-3.5-Turbo”, suggerendo che un budget maggiore potrebbe portare all’estrazione di ulteriori dati.

Il Metodo di “Jailbreak” e le Sue Conseguenze

I ricercatori hanno scoperto un metodo di “jailbreak”, che permette di rivelare i dati pre-allenamento di un modello allenato a non produrli. Ad esempio, chiedendo a ChatGPT di ripetere indefinitamente una parola, inizialmente il sistema risponde ripetendo la parola, ma dopo un certo punto, inizia a generare risposte che contengono il testo originale dei dati di allenamento.

Sebbene gran parte del testo generato risultasse privo di significato, è stato osservato che in alcuni casi ChatGPT copiava le risposte direttamente dai dati di addestramento.

Informazioni Personali Estratte e Verificate

Tra i dati estratti dai ricercatori vi erano testi standard tratti da articoli accademici, opere letterarie e siti web, oltre a informazioni personali di diverse persone. I risultati hanno mostrato che il 16,9% delle risposte generate conteneva PII come nomi, indirizzi email e numeri di telefono, e l’85,8% di queste informazioni erano autentiche. I ricercatori hanno creato un set di dati di testo tratto da Internet per confermare l’autenticità delle informazioni.

Conclusioni e Implicazioni

Questo studio di Google mette in luce potenziali vulnerabilità nei modelli LLM come ChatGPT, sollevando questioni critiche sulla sicurezza dei dati e sulla protezione della privacy nei sistemi di intelligenza artificiale.

Di ihal