Immagine AI

Cercare una foto online e scoprire che l’algoritmo non si interessa davvero a cosa c’è nella foto, ma a come è stata scattata. Sembra folle, ma una recente ricerca – appena pubblicata il 20 agosto 2025 – dimostra proprio questo: numerosi sistemi di intelligenza artificiale, in particolare quelli che interpretano immagini, non si limitano a leggere i soggetti raffigurati, ma “fiutano” dettagli invisibili come la marca o il modello della fotocamera utilizzata.

Sotto la superficie visiva di una foto si nascondono vari strati di informazioni: oltre alla scena, vi sono dati tecnici che descrivono come è stata acquisita l’immagine. Questo include formati JPEG, livelli di compressione, nitidezza, dimensioni, e altri processi invisibili ma rilevabili. Anche quando il contenuto di un’immagine è oscurato o ritagliato, questi modelli riescono comunque a indovinare da quale dispositivo è stata scattata – con una precisione sorprendente anche superiore al 70% solo tra smartphone e fotocamere non‑smartphone.

In pratica, modelli consolidati come CLIP (Contrastive Language–Image Pretraining), DINO, e altri reti supervisionate come ConvNeXt, conservano le tracce tecniche del dispositivo nello spazio di rappresentazione, più di quanto si supponeva.

Per mettere alla prova questi sistemi, i ricercatori hanno creato dataset specifici. Tra questi, PairCams, una raccolta di immagini duplicate dello stesso soggetto, scattate simultaneamente con fotocamere diverse (smartphone e foto tradizionali). Anche dopo aver mascherato fino al 90% del contenuto visivo, i modelli visuali riconoscevano da quale dispositivo proveniva la foto: è una prova inconfutabile che le tecniche di compressione e i tratti del dispositivo influenzano le rappresentazioni interne delle reti.

La cosa più sorprendente è che, in alcune situazioni, un’immagine fortemente compressa di un cane risultava più “simile” a un’altra immagine compressa (ma raffigurante un soggetto diverso) piuttosto che alla sua versione originale senza compressione. In pratica, modelli visuali possono preferire immagini per il tipo di compressione o il dispositivo, anziché per il contenuto tematico.

Questa tendenza può minare le attività più comuni: dalla classificazione automatica di immagini alla ricerca visiva, fino alla moderazione dei contenuti o all’uso in ambiti critici come la diagnostica medica o la videosorveglianza. Se un sistema privilegia la marca della fotocamera piuttosto che ciò che è raffigurato, i risultati diventano imprevedibili, poco generalizzabili e potenzialmente insicuri

Sebbene lo studio non fornisca soluzioni precise per mitigare il problema, mette in evidenza che i dati di addestramento e i metadati delle immagini possono contaminare il comportamento dei modelli. I ricercatori sottolineano l’urgenza di affrontare questa questione, anche se operativamente sarà complesso: ritornare a riaddestrare modelli giganti su dataset privati è costoso e poco trasparente.

Quello che può sembrare un dettaglio tecnico – la compressione JPEG o il modello di smartphone – si rivela invece un ingrediente insidioso nel calderone dell’intelligenza artificiale visiva. Quando un sistema distingue un’immagine non dal suo soggetto ma dal dispositivo, il confine tra percezione e pregiudizio tecnologico si fa sottile.

La vera ambizione dell’IA visiva è riconoscere il contenuto in modo indifferente al “come” è stato catturato – fino a quando questo obiettivo non sarà raggiunto, la fiducia in applicazioni critiche basate su immagini resta vulnerabile. Ora più che mai, serve una consapevolezza profonda di come i modelli apprendono e di quali elementi – spesso invisibili – possono condizionarne il giudizio.

Di Fantasy