L’effetto farfalla negli LLM: l’impatto di piccole variazioni nei Prompts

DiFantasy

Gen 24, 2024

Il post discute come i piccoli cambiamenti nel modo in cui comunichiamo con l’intelligenza artificiale (IA) possono influenzare significativamente le risposte che riceviamo. Questo fenomeno è stato studiato dall’Information Sciences Institute della University of Southern California. Secondo la ricerca, anche piccole modifiche, come aggiungere uno spazio o cambiare la formulazione di una domanda, possono alterare le risposte di un grande modello linguistico (LLM) come ChatGPT.

Il team di ricerca, sostenuto dalla Defense Advanced Research Projects Agency (DARPA), ha condotto esperimenti su ChatGPT utilizzando quattro metodi differenti per variare i suggerimenti (prompts):

Chiedere risposte in formati specifici come liste Python, JSON, CSV, XML, YAML, o non specificare alcun formato.
Apportare variazioni minori, come aggiungere uno spazio all’inizio o alla fine del prompt, iniziare con un saluto, terminare con un ringraziamento, o trasformare una domanda in un comando.
Usare tecniche di jailbreak, che sono metodi per cercare di manipolare o sfidare i limiti dell’IA, includendo simulazioni di conversazioni immorali o illegali, e richieste di contenuti senza etica o rimorso.
Testare l’influenza di offrire una mancia per vedere se influisce sulle risposte del modello.

I risultati hanno mostrato che anche piccoli cambiamenti nei suggerimenti possono avere un grande impatto sulle risposte dell’IA. Per esempio, la semplice aggiunta di un formato specifico ha cambiato le previsioni in almeno il 10% dei casi. Anche le variazioni minori, come l’aggiunta di uno spazio o un saluto, hanno portato a cambiamenti significativi.

L’esperimento ha anche rivelato che l’uso di tecniche di jailbreak può ridurre drasticamente la precisione delle risposte dell’IA, con alcune tecniche che portano a risposte non valide nel 90% dei casi. Tuttavia, offrire una mancia non ha mostrato un impatto significativo sulle prestazioni del modello.

I ricercatori sottolineano che c’è ancora molto da capire su perché queste piccole variazioni influenzano tanto le risposte dell’IA. Un passo importante per il futuro sarà sviluppare modelli più resistenti a questi cambiamenti per assicurare risposte più coerenti. Questo diventa sempre più importante man mano che questi modelli vengono integrati in sistemi su larga scala.

L’effetto farfalla negli LLM: l’impatto di piccole variazioni nei Prompts

DiFantasy

Di Fantasy

Articoli correlati

Apple e il progetto ACDC per entrare nel settore del Cloud Computing

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Daniel Gross lascia SSI di Ilya Sutskever ed entra nel SuperIntelligence Lab di Meta

You missed

Apple e il progetto ACDC per entrare nel settore del Cloud Computing

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Daniel Gross lascia SSI di Ilya Sutskever ed entra nel SuperIntelligence Lab di Meta

Le aziende europee chiedono un rinvio dell’AI Act: preoccupazioni per la competitività e l’innovazione