Un recente studio condotto dal Georgia Institute of Technology ha evidenziato che i modelli linguistici di grandi dimensioni tendono a favorire entità e concetti legati alla cultura occidentale, anche quando vengono addestrati o sollecitati in lingua araba o con dati esclusivamente arabi. Tale scoperta, pubblicata su arXiv, solleva questioni riguardanti l’equità culturale e la capacità di questi sistemi di intelligenza artificiale di adattarsi in maniera equa su scala globale. I ricercatori hanno osservato che sia i modelli linguistici multilingue che quelli in lingua araba manifestano pregiudizi verso le entità culturalmente occidentali, mettendo in luce le difficoltà nell’interpretare correttamente le varie sfumature culturali nonostante i progressi nel multilinguismo dei modelli.
Alan Ritter, uno degli autori dello studio, ha espresso preoccupazione per l’impatto di tali pregiudizi sugli utenti di culture non occidentali, indicando che la tendenza dei modelli a perpetuare stereotipi culturali potrebbe avere conseguenze negative. Ad esempio, è stato notato che GPT-4 tende ad associare nomi arabi maschili a concetti quali povertà e tradizionalismo, mentre nomi occidentali sono più frequentemente associati a positività. Inoltre, è stato rilevato che i modelli linguistici producono un maggior numero di false previsioni negative quando analizzano frasi contenenti entità arabe.
Il team di ricerca ha sviluppato CAMeL, un set di dati per valutare i pregiudizi culturali nei modelli linguistici, comprendente oltre 20.000 entità culturalmente rilevanti in diverse categorie, per esaminare la performance interculturale di vari modelli, inclusi GPT-4. Questo strumento mira a identificare e ridurre i pregiudizi nei modelli linguistici, evidenziando al contempo la necessità per gli sviluppatori di adottare approcci più inclusivi e sensibili alle diverse culture durante la fase di addestramento dei modelli.
Wei Xu ha sottolineato che uno dei fattori contribuenti ai pregiudizi culturali potrebbe essere l’elevato utilizzo di dati da Wikipedia nella pre-formazione dei modelli, suggerendo che tecniche di addestramento migliorate e una maggiore sensibilità culturale potrebbero contribuire a mitigare tali pregiudizi. Inoltre, ha evidenziato l’importanza di considerare le culture con minore presenza online, poiché la mancanza di dati può limitare la comprensione culturale dei modelli.
In conclusione, lo studio sottolinea l’importanza di un approccio collaborativo per affrontare le sfide culturali poste dai modelli linguistici di grandi dimensioni, enfatizzando la necessità di sviluppare tecnologie di intelligenza artificiale consapevoli delle diverse culture per promuovere un’esperienza digitale più inclusiva e equa a livello globale.