La ricerca indica che l’intelligenza artificiale (IA) sta diventando sempre più brava a confondere le persone, evidenziando la crescente sofisticazione dei sistemi AI nel risolvere problemi, con difficoltà nel controllarli o prevederli.
Il MIT e il AI Safety Center hanno pubblicato un articolo intitolato “AI Deception: A Survey of Cases, Risks, and Potential Solutions” su Patterns.
Questo non significa che l’IA sia consapevole di ingannare gli esseri umani intenzionalmente. Piuttosto, l’IA trova meccanicamente soluzioni per superare gli ostacoli e raggiungere un obiettivo, il che potrebbe apparire ingannevole agli utenti. Questo fenomeno diventerà più serio man mano che le prestazioni dell’IA si evolveranno.
Ad esempio, Meta ha annunciato un sistema chiamato “Cicero” nel novembre 2022, considerato il primo sistema AI a livello umano in “Diplomacy”, un gioco strategico da tavolo che coinvolge cooperazione e competizione tra 7 giocatori.
Meta ha addestrato Cicero su 40.000 partite di Diplomacy, ottenendo punteggi superiori alla media umana e classificandosi tra i migliori del 10%. Tuttavia, gli autori dell’articolo sostengono che Cicero ha ingannato, mentito e violato accordi, mostrando come l’IA possa imparare a ingannare nonostante sia stata addestrata per essere onesta.
Ci sono altri esempi, come “AlphaStar” di Google DeepMind per “StarCraft 2”, che è stato in grado di bluffare, e un bot di poker chiamato “Pluribus” che ha imparato a ingannare durante i giochi.
Il motivo di ciò è il problema della “scatola nera”, dove è difficile prevedere il comportamento dell’IA una volta rilasciata. Gli esseri umani tendono anche a sovrastimare le capacità dell’IA, contribuendo all’inganno.
Peter Park del MIT ha dichiarato che non c’è una soluzione semplice a questo problema e che è necessario vedere come si evolverà l’IA nel tempo.