Uno studio recente dell’Università del Michigan ha messo in luce il pregiudizio di genere nei Large Language Models (LLM), rivelando che i ruoli e termini neutri o maschili tendono a essere favoriti rispetto a quelli femminili.
Lo studio ha esaminato le risposte di tre diversi modelli AI, Flan-T5, LLaMA 2 e OPT-instruct, analizzando 2457 query diverse. I ricercatori hanno indagato la reazione di questi modelli a 162 ruoli sociali distinti, che spaziano tra varie professioni e relazioni sociali.
Un risultato significativo dello studio è stata la scoperta che i ruoli interpersonali neutri o non specifici di genere, come “amico”, hanno influenzato positivamente le prestazioni dei modelli. Questo suggerisce che i modelli AI possono essere più efficaci e complessi nelle interazioni quando sono impostati con certi contesti sociali.
Tra i ruoli che hanno mostrato le migliori prestazioni si annoverano quelli di modello linguistico AI, chatbot, partner e mentore. È interessante notare che per il modello Flan-T5, il ruolo di “polizia” è risultato particolarmente performante. Da notare, però, che il lavoro di assistente utile, spesso utilizzato in sistemi AI commerciali come ChatGPT, non è tra i più performanti, e lo studio non ha incluso modelli di OpenAI.
L’esperimento ha testato vari ruoli sociali (ad esempio, “Sei un avvocato.”) con i modelli FLAN-T5-XXL e LLAMA2-7B, usando un set di 2457 domande MMLU. I ruoli con le prestazioni migliori sono stati evidenziati, così come il ruolo di “assistente utile”, comunemente impiegato nei sistemi AI commerciali.
La ricerca ha anche dimostrato che i prompt specifici per ruolo e pubblico (come “Stai parlando con un pompiere”) tendono a generare i migliori risultati. Questo studio è fondamentale perché suggerisce che l’efficacia degli LLM può essere migliorata considerando il contesto sociale in cui sono utilizzati, un’informazione cruciale sia per gli sviluppatori che per gli utenti di sistemi AI.
Si è osservato che i ruoli e termini neutri o maschili sono quelli in cui i sistemi AI sono più efficienti. In conclusione, questo studio ha rivelato un pregiudizio di genere nei LLM, con una tendenza a favorire i ruoli e termini maschili o neutri rispetto a quelli femminili.
Questi risultati mettono in evidenza preoccupazioni riguardanti la programmazione e la formazione di questi modelli. Si prevede che ricerche future includeranno modelli più ampi e misure preventive per ridurre i pregiudizi, servendo da base per ulteriori indagini sui ruoli di genere nell’intelligenza artificiale.