Dalle poesie romantiche alle immagini ispirate a Salvador Dali, l’IA generativa ora può fare tutto. E può farlo così bene che spesso è impossibile distinguere tra intelligenza artificiale e opere d’arte generate dall’uomo. Dal test di Turing, che ha stabilito lo standard per prestazioni di intelligenza artificiale di successo, capace di imitare gli umani così bene da diventare indistinguibile, la discussione sulla tecnologia che imita gli umani è stata un argomento importante del dibattito pubblico. La comunità ha sempre cercato di distinguere tra testo scritto da esseri umani e testo generato dall’intelligenza artificiale, temendo un possibile uso improprio della tecnologia.

Gli scienziati del MIT CSAIL hanno creato un nuovo strumento di intelligenza artificiale chiamato “PhotoGuard” che mira a bloccare le modifiche non autorizzate alle immagini apportate da modelli come DALL-E e Midjourney. Questo strumento è specificamente progettato per proteggere dalle manipolazioni delle immagini senza un’autorizzazione adeguata.

PhotoGuard sfrutta le “perturbazioni contraddittorie”, che sono minuscole alterazioni nei valori dei pixel non visibili all’occhio umano, ma che possono essere rilevate dai modelli di computer. Queste perturbazioni interrompono la capacità del modello AI di manipolare le immagini in modo efficace. Esistono due metodi di attacco utilizzati da PhotoGuard per generare queste perturbazioni.

L’attacco “codificatore” prende di mira la rappresentazione latente dell’immagine da parte del modello AI, inducendo il modello a percepire l’immagine come casuale. L’obiettivo di questo attacco è interrompere il processo LDM di codifica dell’immagine di input in una rappresentazione vettoriale latente, che viene quindi utilizzata per generare una nuova immagine. Questo obiettivo viene raggiunto risolvendo un problema di ottimizzazione utilizzando la discesa del gradiente proiettata (PGD). Le piccole e impercettibili perturbazioni risultanti aggiunte all’immagine originale fanno sì che l’LDM generi un’immagine irrilevante o irrealistica.

D’altra parte, l’attacco “diffusione” definisce un’immagine bersaglio e ottimizza le perturbazioni per rendere l’immagine finale molto simile al bersaglio. Questo attacco è più complesso e mira a disturbare il processo di diffusione stesso, prendendo di mira non solo il codificatore, ma anche l’intero processo di diffusione, che include il condizionamento del prompt del testo. L’obiettivo è generare un’immagine target specifica (ad esempio, rumore casuale o un’immagine grigia) risolvendo un altro problema di ottimizzazione utilizzando PGD. Questo attacco vanifica non solo l’effetto dell’immagine immunizzata ma anche quello del prompt testuale.

Hadi Salman, autore principale dell’articolo e studente di dottorato al MIT, ha dichiarato ad AIM: “In sostanza, il meccanismo di perturbazioni contraddittorie di PhotoGuard aggiunge uno strato di protezione alle immagini, rendendole immuni alla manipolazione da parte dei modelli di diffusione”. Riproponendo queste impercettibili modifiche dei pixel, PhotoGuard salvaguarda le immagini dalla manomissione di tali modelli.

Ad esempio, considera un’immagine con più facce. Puoi mascherare tutti i volti che non desideri modificare e quindi suggerire “due uomini che partecipano a un matrimonio”. Al momento dell’invio, il sistema regolerà l’immagine di conseguenza, creando una rappresentazione plausibile di due uomini che partecipano a una cerimonia di matrimonio. Ora, considera di salvaguardare l’immagine dalla modifica; l’aggiunta di perturbazioni all’immagine prima del caricamento può immunizzarla dalle modifiche. In questo caso, l’output finale mancherà di realismo rispetto all’immagine originale non immunizzata.

“Sarei scettico sulla capacità dell’IA di soppiantare la creatività umana. Mi aspetto che nel lungo periodo l’intelligenza artificiale diventi solo un altro (potente) strumento nelle mani dei progettisti per aumentare la produttività degli individui e per articolare meglio i propri pensieri senza barriere tecniche”, ha concluso Salman.

La recente discussione al Senato sulla regolamentazione dell’IA ha acceso i riflettori sulle questioni più urgenti del diritto d’autore e dell’incentivazione degli artisti. Dirigenti senior di OpenAI, HuggingFace, Meta, tra gli altri, hanno testimoniato davanti al Congresso degli Stati Uniti sui potenziali pericoli dell’IA e hanno suggerito la creazione di una nuova agenzia governativa per concedere in licenza grandi modelli di intelligenza artificiale, revocare i permessi per non conformità e stabilire protocolli di sicurezza.

L’impulso principale alla base di questa richiesta di regolamentazione deriva dalle preoccupazioni relative alla violazione del copyright. È iniziato quando la comunità degli artisti ha intentato una causa contro le società dietro generatori di immagini come Stability AI, Midjourney e DeviantArt chiedendo un risarcimento per i danni causati da queste società che utilizzavano la loro arte senza credito.

I contenuti generati dall’intelligenza artificiale stanno affrontando l’opposizione di società di immagini stock come Shutterstock, Getty e artisti, che lo vedono come una minaccia alla loro proprietà intellettuale. Ma alla fine, la maggior parte di loro è entrata a far parte delle partnership. Firefly di Adobe, un creatore di immagini generative progettato per un “uso commerciale sicuro”, offre un indennizzo IP per salvaguardare gli utenti da problemi legali legati al suo utilizzo. È basato su Picasso di NVIDIA, addestrato su immagini concesse in licenza da Getty Images, Shutterstock. Shutterstock ha anche collaborato con OpenAI, creatore di DALL-E, per fornire dati di addestramento. Ora fornisce inoltre un indennizzo completo ai suoi clienti aziendali che utilizzano immagini di IA generative sulla loro piattaforma, garantendo protezione contro eventuali rivendicazioni legali relative all’utilizzo delle immagini. Google, Microsoft e altre grandi aziende stanno anch’esse prendendo misure simili per affrontare queste preoccupazioni e garantire un utilizzo etico e legale delle opere d’arte generative.

Di Fantasy