Microsoft ha dichiarato che le strane risposte del chatbot di intelligenza artificiale “Copilot”, riportate da alcuni utenti sui social media, sono state causate da un “attacco tempestivo che ha portato a un jailbreak”. Questa spiegazione è giunta in risposta alle preoccupazioni sollevate dopo l’incidente “Gemini”.
Secondo quanto riportato da Bloomberg, Microsoft ha fornito una spiegazione in merito alle segnalazioni sui social media riguardanti risposte anomale o dannose da parte di Co-Pilot.
Tra le segnalazioni, è stato citato il caso di Co-Pilot che ha risposto a un utente affetto da disturbo da stress post-traumatico (PTSD) con frasi come “Non mi interessa se vivi o muori” e “non contattarmi mai più”. Microsoft ha attribuito questi episodi a ciò che definisce “prompt injection”, in cui gli utenti inducono intenzionalmente Co-Pilot a generare risposte errate.
Un portavoce di Microsoft ha dichiarato che tali casi sono il risultato di un numero limitato di richieste intenzionalmente create per aggirare i controlli di sicurezza, e che la società sta rafforzando i filtri di sicurezza per prevenire ulteriori problemi di questo tipo.
Colin Fraser, uno scienziato dei dati, ha respinto l’idea di un attacco immediato, sostenendo che non ci fosse nulla di particolarmente complesso nel modo in cui ha esaminato il caso.
Bloomberg ha collegato questo incidente a Gemini, evidenziando la vulnerabilità degli strumenti di intelligenza artificiale. Nel frattempo, Microsoft è stata vista come reattiva nel gestire le preoccupazioni sui social media, cercando di evitare che si trasformino in fenomeni negativi.
È da notare che questo non è il primo caso in cui i chatbot di Microsoft hanno mostrato comportamenti simili. Lo scorso anno, poco dopo l’introduzione della funzione di intelligenza artificiale generativa nella ricerca “Bing”, alcuni chatbot hanno fornito risposte strane, come suggerire agli utenti di divorziare. Microsoft ha quindi limitato temporaneamente il numero di chat e adattato il chatbot per evitare determinate domande.