Il più esteso apparato di sorveglianza pubblica esistente al mondo sta attraversando una riprogettazione profonda che ne cambia la natura funzionale, spostando il baricentro dalla semplice registrazione e archiviazione dei filmati verso un modello di polizia predittiva capace di analizzare il comportamento umano e di anticipare in tempo reale potenziali situazioni di disordine. La direzione del cambiamento emerge dall’analisi di una dozzina di documenti di gara pubblicati dalle amministrazioni locali cinesi e dalle testimonianze di operatori del settore, che convergono nel descrivere un’espansione su vasta scala di sistemi di videosorveglianza di nuova generazione fondati sull’intelligenza artificiale, parte di una strategia di rafforzamento del controllo sociale e delle capacità di gestione della sicurezza pubblica attraverso l’integrazione di tecnologie avanzate nelle organizzazioni di pubblica sicurezza.
Il punto di partenza di questa transizione è il riconoscimento dei limiti dell’infrastruttura preesistente, che pur garantendo una copertura capillare del territorio mostrava criticità riconducibili all’hardware ormai datato, a un’architettura software frammentata in sistemi non comunicanti e a capacità analitiche di intelligenza artificiale ridotte. Il sistema tradizionale operava in modo essenzialmente reattivo, nel senso che consentiva di ricostruire gli eventi dopo che si erano verificati ma offriva margini ristretti per intercettare in anticipo le intenzioni e i comportamenti di soggetti non già sotto osservazione, una lacuna che la nuova generazione di apparati intende colmare proprio sul terreno della previsione. La modernizzazione delle attrezzature di polizia e la transizione verso un modello predittivo sono diventate obiettivi ufficiali a partire dal 2024, sotto la guida del Ministro della Pubblica Sicurezza Wang Xiaohong.
Sul piano tecnico la svolta è resa possibile dalla combinazione fra visione artificiale e modelli linguistici di grandi dimensioni, un accoppiamento che i principali produttori di apparecchiature, fra cui Hikvision e Huawei, hanno tradotto in prodotti commerciali nel corso degli ultimi mesi. I sistemi più recenti analizzano automaticamente le scene contenute nei flussi video, identificano schemi comportamentali ricorrenti e consentono di interrogare gli archivi tramite comandi in linguaggio naturale, una capacità che riduce drasticamente il lavoro manuale di visione dei filmati che in precedenza richiedeva agli operatori tempi lunghissimi. Un esempio concreto di questa funzionalità è la possibilità di recuperare automaticamente le sequenze pertinenti digitando una semplice descrizione testuale, come l’indicazione di una donna con un cappello rosso, laddove il sistema precedente permetteva la ricerca per somiglianza soltanto a partire da un’immagine di riferimento e non contemplava l’interrogazione testuale. Secondo quanto spiegato da un responsabile di Hikvision, l’operatore non deve più esaminare i video uno per uno, perché il sistema individua da solo i filmati rilevanti a partire dal testo inserito in un campo di ricerca.
L’elemento architetturale che caratterizza questi apparati è l’integrazione di chip di intelligenza artificiale ad alte prestazioni direttamente all’interno della telecamera, una scelta progettuale che consente di eseguire l’analisi in tempo reale sul dispositivo senza la necessità di trasmettere i dati a un server centralizzato. Questo paradigma di elaborazione ai margini della rete riduce la dipendenza dai data center centralizzati, abbatte la latenza e accelera la velocità con cui i comportamenti considerati sospetti vengono rilevati e segnalati. I sistemi sono in grado di riconoscere automaticamente una serie di situazioni predefinite ed emettere allarmi, fra cui modalità di guida anomale, assembramenti di persone, accessi non autorizzati ad aree riservate, soste prolungate in prossimità di punti sensibili come i ponti e comportamenti associati al rischio di gesti autolesivi. La capacità di classificare in tempo reale attributi come il sesso, la postura e l’abbigliamento delle persone inquadrate compare esplicitamente fra i requisiti tecnici di alcune procedure di acquisto.
L’implementazione sul territorio è già in corso con progetti concreti documentati a livello municipale. La città di Yaodu, nella provincia del Sichuan, sta portando avanti l’installazione di 175 telecamere ad alta risoluzione dotate di intelligenza artificiale e di funzioni di rilevamento dei comportamenti anomali, con un investimento di 900.000 yuan, mentre il dipartimento di polizia di Datong ha bandito una gara per l’acquisizione di apparati in grado di identificare il sesso, la postura e l’abbigliamento dei soggetti ripresi. Le analisi collegano questo potenziamento della rete di sorveglianza all’aumento recente degli episodi di violenza nelle strade, fenomeno che diversi osservatori riconducono a una crisi della salute mentale aggravata dal rallentamento economico e dagli effetti delle politiche di confinamento adottate durante la pandemia, fattori che hanno contribuito a un quadro di maggiore instabilità sociale. La studiosa Minxin Pei, del Claremont McKenna College, ha osservato che l’impianto di sorveglianza cinese era finora prevalentemente reattivo e mostrava limiti nella capacità di prevedere le intenzioni dei soggetti non monitorati.
La trasformazione solleva interrogativi rilevanti sul piano dei diritti, perché i progressi nell’intelligenza artificiale generativa e nella visione artificiale stanno mettendo a disposizione delle autorità capacità di sorveglianza comportamentale su una scala senza precedenti. La ricercatrice Maya Wang, di Human Rights Watch, ha rilevato che la filosofia stessa dell’apparato si sta spostando verso un’impostazione progressivamente più estesa nella popolazione osservata, un cambiamento che amplia il perimetro di chi può essere oggetto di analisi predittiva ben oltre i soggetti già attenzionati. Sullo sfondo dell’intero processo si sta sviluppando una nuova filiera industriale dedicata ai chip per l’intelligenza artificiale destinati a questo mercato: la Shanghai Fuhan Microelectronics, che fornisce componenti a Hikvision, registra una crescita rapida sospinta dalla domanda crescente, grazie a chip che gestiscono la conversione dei dati video in informazioni digitali e l’esecuzione delle analisi direttamente sulla telecamera o su un server locale, consolidando così il modello di elaborazione distribuita che costituisce la spina dorsale tecnica di questa nuova generazione di sorveglianza.
