I grandi modelli di linguaggio (LLM) stanno diventando sempre più popolari, ma ciò ha portato a sfide legate alle risposte imprevedibili e inaffidabili generate da questi chatbot. Alcuni attori malintenzionati stanno manipolando i dati utilizzati per addestrare i chatbot di intelligenza artificiale, distorcendo l’output prodotto da questi sistemi.
Recentemente, l'”avvelenamento dei dati” è diventato un problema crescente per gli scienziati. Questa pratica consiste nell’inserire informazioni false o fuorvianti nei set di dati di addestramento per alterare i risultati del modello. Secondo Dmitry Ustalov, Head of Ecosystem Development presso Toloka, ciò diventa particolarmente problematico quando i modelli vengono addestrati su set di dati aperti, che possono essere facilmente manipolati.
In uno studio intitolato “Poisoning Language Models during Instruction Tuning”, i ricercatori hanno scoperto che bastano solo 100 esempi di dati avvelenati per manipolare i modelli linguistici e produrre risultati negativi e imprecisi. Inoltre, i modelli di grandi dimensioni sono più vulnerabili agli attacchi di avvelenamento dei dati.
L’avvelenamento dei dati può avvenire attraverso diverse tecniche, tra cui “Split View Poisoning” e “Front-Running Poisoning”. Nel primo caso, gli attori malintenzionati prendono il controllo di una risorsa web e iniettano dati distorti o imprecisi nei set di dati utilizzati per l’addestramento. Nel secondo caso, gli attori malintenzionati modificano le etichette o le caratteristiche di un sottoinsieme di input per raggiungere un obiettivo specifico e inseriscono questi dati modificati nei set di dati di addestramento prima dei dati legittimi.
Questi attacchi possono contribuire alle cosiddette “allucinazioni” dei chatbot, che generano informazioni errate o pregiudiziali. Ad esempio, recentemente il sindaco di Hepburn Shire, in Australia, ha minacciato di citare in giudizio OpenAI quando il chatbot ChatGPT ha erroneamente affermato che il sindaco aveva scontato una pena detentiva per corruzione.
Con l’aumento degli attacchi di avvelenamento dei dati e dei problemi di sicurezza, è difficile garantire che gli LLM siano sempre affidabili. Se i dati di input sono inaffidabili, è difficile prevedere un output preciso ed affidabile.
Per contrastare l’avvelenamento dei dati, i ricercatori stanno lavorando su soluzioni e difese che possano proteggere i modelli linguistici dai pericoli di questi attacchi. Un approccio potrebbe consistere nel migliorare la qualità dei set di dati utilizzati per l’addestramento, garantendo che provengano da fonti affidabili e verificate. Un’altra strategia potrebbe essere l’implementazione di meccanismi di rilevamento e correzione delle anomalie nei dati in tempo reale, per individuare e rimuovere gli elementi avvelenati prima che influenzino i modelli.
Inoltre, la collaborazione tra aziende tecnologiche, ricercatori e legislatori potrebbe contribuire a stabilire standard e linee guida per l’uso responsabile e sicuro dei chatbot basati su intelligenza artificiale. Questo potrebbe includere l’elaborazione di protocolli di sicurezza e l’adozione di best practice per prevenire e affrontare gli attacchi di avvelenamento dei dati.
Infine, è fondamentale che gli utenti dei chatbot e delle applicazioni basate sull’intelligenza artificiale siano consapevoli dei limiti e dei rischi associati a questi strumenti. Gli utenti dovrebbero sempre verificare le informazioni fornite dai chatbot e, quando necessario, cercare fonti alternative per confermare l’affidabilità delle risposte ottenute.
In conclusione, mentre l’avvelenamento dei dati rappresenta una minaccia significativa per i chatbot di intelligenza artificiale e l’affidabilità delle loro risposte, gli sforzi congiunti di ricercatori, aziende e utenti possono contribuire a mitigare i rischi e garantire un utilizzo sicuro e responsabile di queste tecnologie emergenti.