Nel maggio 2023, il mondo è stato sconvolto dalle immagini che circolavano del Pentagono avvolto nel fumo. Queste immagini hanno avuto un impatto significativo sui canali di informazione e hanno persino causato un breve calo dei mercati azionari. Tuttavia, si è poi scoperto che si trattava di una falsa immagine generata da un sistema di intelligenza artificiale.
Questo episodio ha sollevato importanti questioni riguardo all’identificazione dei contenuti generati dall’intelligenza artificiale in vari contesti, portando a una discussione più ampia sulle false profondità e le immagini false. L’uso sempre più diffuso di strumenti di intelligenza artificiale generativa ha reso possibile la produzione di immagini iperrealistiche solo dai prompt.
Di fronte a questa sfida, i governi di tutto il mondo hanno cercato soluzioni e regolamentazioni per garantire la sicurezza nell’uso dell’intelligenza artificiale. Diverse importanti aziende del settore, tra cui Amazon, Anthropic, Google, Inflection, Meta, Microsoft e OpenAI, si sono impegnate volontariamente in misure come la filigrana dei contenuti generati dall’intelligenza artificiale per aumentarne la sicurezza. Tuttavia, fino ad ora, non è stata trovata una soluzione definitiva.
Attualmente, i metodi di codifica dei dati in immagini o audio possono essere facilmente aggirati, quindi è necessaria una filigrana robusta e invisibile che sia facilmente applicabile e rilevabile ma resistente alle trasformazioni. Gli studi hanno dimostrato che è difficile per gli esseri umani distinguere tra contenuti generati dall’intelligenza artificiale e contenuti umani, quindi dimostrare l’origine della creazione dei contenuti è diventato sempre più essenziale, soprattutto considerando il dilagante furto di proprietà intellettuale online.
In questo contesto, la piattaforma californiana Steg.AI ha sviluppato una soluzione basata sul deep learning che consente di incorporare filigrane quasi impercettibili nei contenuti digitali. Queste filigrane rimangono intatte anche quando le immagini vengono alterate, compresse o manipolate. Sorprendentemente resistenti, possono essere catturate anche utilizzando una fotocamera dell’iPhone quando vengono visualizzate sugli schermi o stampate.
Steg.AI sta trovando applicazione in diversi scenari, come servizi di fotografia stock, condivisione di contenuti su piattaforme come Instagram, copie pre-rilascio di film e protezione di documenti riservati. La robustezza delle filigrane ha attratto l’attenzione dei clienti e ha portato alla loro adozione.
La piattaforma di Steg.AI si basa sull’integrazione perfetta di filigrane nelle immagini generate dall’intelligenza artificiale prima della loro distribuzione. Sebbene le specifiche del processo rimangano proprietarie, l’idea di base coinvolge un paio di modelli di apprendimento automatico. Un modello personalizza il posizionamento della filigrana all’interno dell’immagine, garantendo l’impercettibilità all’occhio umano pur rimanendo rilevabile dall’algoritmo di decodifica.
Analogamente a un codice QR invisibile e in gran parte immutabile, questo metodo permette di incorporare potenzialmente kilobyte di dati, sufficienti per URL, hash e informazioni in chiaro. Ogni pagina di un documento multipagina o di un fotogramma video può contenere codici distinti, aumentando esponenzialmente la capacità di tracciamento e autenticazione.
Il lavoro di Steg.AI può essere ricondotto a un documento CVPR del 2019, e l’azienda ha ricevuto sovvenzioni governative SBIR di Fase I e II per supportare i loro sforzi. I co-fondatori Eric Wengrowski e Kristin Dana, con un background nella ricerca accademica, hanno dedicato anni per perfezionare il loro approccio.
Gli sforzi di Steg.AI sono stati supportati da sovvenzioni NSF e investimenti di venture capital per un totale di 1,2 milioni di dollari. Di recente, la società ha annunciato un significativo round di finanziamento iniziale da 5 milioni di dollari, guidato da Paladin Capital Group e con la partecipazione di Washington Square Angels, NYU Innovation Venture Fund e singoli investitori privati.
Anche altre importanti aziende tecnologiche si sono mosse per incorporare filigrane nei loro contenuti. Microsoft, ad esempio, ha aggiunto nuove funzionalità di provenienza dei media a Bing Image Creator e Designer durante la sua conferenza annuale Build. Questo permette agli utenti di verificare immagini e video generati dall’intelligenza artificiale. Microsoft ha adottato la specifica Coalition for Content Provenance and Authenticity (C2PA), sviluppata con Adobe, Arm, Intel, Microsoft e Truepic, per contrassegnare e firmare il contenuto con metadati che ne indicano l’origine.
Allo stesso modo, altre aziende come Stability AI e Google stanno esplorando approcci simili e Shutterstock e Midjourney hanno adottato linee guida per incorporare marcatori che indicano contenuti generativi creati dall’IA.
Inoltre, una ricerca collaborativa tra Meta AI, il Centre Inria de l’Universite de Rennes e l’Università della Sorbona ha portato allo sviluppo di una tecnica innovativa per incorporare filigrane nel processo di generazione delle immagini, preservando l’architettura. Utilizzando i modelli di diffusione latente (LDM), i ricercatori hanno integrato con successo le filigrane con minimi aggiustamenti ai modelli generativi pre-addestrati. Questa tecnologia è particolarmente utile per le organizzazioni dei media nell’identificazione delle immagini generate al computer e offre una maggiore sicurezza e efficienza computazionale. Consentendo ai fornitori di modelli di distribuire versioni dei loro modelli con filigrane distinte per diversi gruppi di utenti, questa tecnica facilita il monitoraggio dell’utilizzo etico.
La mossa di queste sette grandi aziende tecnologiche supporta gli sforzi dell’amministrazione Biden per regolamentare la tecnologia dell’intelligenza artificiale, che sta diventando sempre più pervasiva. Il Congresso degli Stati Uniti sta anche esaminando un disegno di legge che richiederebbe la divulgazione dell’uso dell’IA nella creazione di annunci politici, mirando a garantire una maggiore trasparenza e responsabilità nell’uso di questa tecnologia in evoluzione.