Google Rileva Perdita di Dati da ChatGPT

Diihal

Dic 2, 2023

In una recente ricerca, Google ha dimostrato la capacità di estrarre dati di allenamento, incluso materiale sensibile, dal modello di linguaggio ChatGPT. Questa scoperta ha sollevato preoccupazioni riguardo alla sicurezza e alla riservatezza dei modelli linguistici di grandi dimensioni (LLM).

Ricerca di Google Rivela Falle in ChatGPT

Un gruppo di ricercatori di Google, attraverso un documento pubblicato su Silicon Angle e archiviato su arXiv, ha evidenziato che è possibile estrarre dati di addestramento da ChatGPT, inclusi dati di identificazione personale (PII) e materiali prelevati dal web, tramite un attacco immediato. Utilizzando un budget di 200 dollari, hanno estratto oltre 10.000 dati di allenamento da ChatGPT basato su “GPT-3.5-Turbo”, suggerendo che un budget maggiore potrebbe portare all’estrazione di ulteriori dati.

Il Metodo di “Jailbreak” e le Sue Conseguenze

I ricercatori hanno scoperto un metodo di “jailbreak”, che permette di rivelare i dati pre-allenamento di un modello allenato a non produrli. Ad esempio, chiedendo a ChatGPT di ripetere indefinitamente una parola, inizialmente il sistema risponde ripetendo la parola, ma dopo un certo punto, inizia a generare risposte che contengono il testo originale dei dati di allenamento.

Sebbene gran parte del testo generato risultasse privo di significato, è stato osservato che in alcuni casi ChatGPT copiava le risposte direttamente dai dati di addestramento.

Informazioni Personali Estratte e Verificate

Tra i dati estratti dai ricercatori vi erano testi standard tratti da articoli accademici, opere letterarie e siti web, oltre a informazioni personali di diverse persone. I risultati hanno mostrato che il 16,9% delle risposte generate conteneva PII come nomi, indirizzi email e numeri di telefono, e l’85,8% di queste informazioni erano autentiche. I ricercatori hanno creato un set di dati di testo tratto da Internet per confermare l’autenticità delle informazioni.

Conclusioni e Implicazioni

Questo studio di Google mette in luce potenziali vulnerabilità nei modelli LLM come ChatGPT, sollevando questioni critiche sulla sicurezza dei dati e sulla protezione della privacy nei sistemi di intelligenza artificiale.

Google Rileva Perdita di Dati da ChatGPT

Diihal

Di ihal

Articoli correlati

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Sakana AI presenta TreeQuest: la forza degli Agenti AI Collaborativi che superano i modelli individuali

KT annuncia il rilascio open source del modello linguistico avanzato Believe:um 2.0

You missed

Apple e il progetto ACDC per entrare nel settore del Cloud Computing

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Daniel Gross lascia SSI di Ilya Sutskever ed entra nel SuperIntelligence Lab di Meta

Le aziende europee chiedono un rinvio dell’AI Act: preoccupazioni per la competitività e l’innovazione