Recenti rivelazioni hanno svelato che il governo cinese sta sviluppando un modello linguistico di grandi dimensioni (LLM) per identificare e censurare contenuti sensibili su Internet, con l’obiettivo di controllare l’informazione online in modo più efficiente. Un database trapelato, analizzato da TechCrunch il 27 marzo, ha mostrato i dati utilizzati per addestrare l’intelligenza artificiale (IA) cinese, destinata a operare come strumento di censura ideologica.
Il database contiene 133.000 casi di contenuti ritenuti sensibili, tra cui argomenti come la povertà nelle zone rurali della Cina, notizie riguardanti membri corrotti del Partito Comunista, e denunce di corruzione da parte della polizia che perseguita gli imprenditori. Tra i temi censurati non compaiono solo eventi notori come l’incidente di Piazza Tiananmen o la figura del presidente Xi Jinping, ma anche questioni meno ovvie legate alla politica, alla società e alle forze armate.
Il database, scoperto dagli esperti di sicurezza NetAsari, è ospitato su server Baidu e contiene circa 300 gigabyte di dati in formato JSON. Sebbene il creatore del set di dati sia sconosciuto, si ritiene che diverse organizzazioni abbiano contribuito alla sua creazione. I dati arrivano a coprire eventi fino a dicembre 2024, suggerendo che l’utilizzo di LLM da parte del governo cinese sia parte di una strategia a lungo termine per il monitoraggio e la censura.
Il modello linguistico è progettato per individuare e contrassegnare come “priorità assoluta” le parole chiave legate a temi sensibili, come questioni politiche, sociali e militari. Tra gli obiettivi principali ci sono temi come l’inquinamento, incidenti di sicurezza alimentare, frodi finanziarie e controversie sul lavoro, che spesso sfociano in proteste in Cina. La “satira politica” e le critiche indirette ai leader politici sono particolarmente monitorate, con censure immediate. Anche i contenuti legati alla politica di Taiwan e alle informazioni militari, come i resoconti sui movimenti delle truppe e sugli armamenti, sono strettamente censurati.
Il set di dati è etichettato come “destinato al lavoro di opinione pubblica”, un termine che indica chiaramente come l’uso di questa tecnologia sia finalizzato a supportare la macchina della censura del governo cinese. Il presidente Xi Jinping ha infatti definito Internet come la “prima linea” del “lavoro di opinione pubblica” del Partito Comunista, un settore sotto la supervisione della Cyberspace Administration of China (CAC), che regola i servizi Internet e l’uso dell’IA nel paese.
Xiao Qiang, ricercatore dell’UC Berkeley ed esperto di censura cinese, ha commentato che il database rappresenta “una chiara prova che il governo cinese sta cercando di utilizzare i LLM per rafforzare la repressione”. Secondo Qiang, sebbene la censura in Cina sia attualmente basata su filtri di parole chiave e revisioni manuali, l’uso di LLM migliorerà notevolmente l’efficacia e la precisione del controllo delle informazioni.
Nel frattempo, anche OpenAI ha recentemente rivelato che diverse agenzie cinesi stanno utilizzando LLM per monitorare i post antigovernativi e identificare le diffamazioni verso i dissidenti. In risposta a queste critiche, l’ambasciata cinese ha dichiarato di opporsi a “attacchi infondati e calunnie” contro la Cina, sottolineando l’importanza che il paese attribuisce allo sviluppo di un’intelligenza artificiale etica.