Il contenzioso contro le pratiche di scraping dei dati delle società di intelligenza artificiale che sviluppano modelli linguistici di grandi dimensioni ha continuato a surriscaldarsi oggi, con la notizia che la comica e autrice Sarah Silverman ha citato in giudizio OpenAI e Meta per violazione del copyright del suo libro di memorie umoristico, The Bedwetter: Stories of Courage, Redemption, and Pee, pubblicato nel 2010.
La causa, intentata dallo studio legale Joseph Saveri con sede a San Francisco, che ha anche intentato una causa contro GitHub nel 2022, sostiene che Silverman e altri due querelanti non hanno acconsentito all’uso dei loro libri protetti da copyright come materiale di formazione per ChatGPT di OpenAI e LLaMA di Meta e che quando viene richiesto ChatGPT o LLaMA lo strumento genera riepiloghi delle opere protette da copyright, cosa possibile solo se i modelli sono stati addestrati su di essi.
Queste questioni legali relative al diritto d’autore e al “fair use” non stanno scomparendo – anzi, vanno al cuore di ciò di cui sono fatti i modelli linguistici di grandi dimensioni (LLM) di oggi – ovvero i dati di addestramento. Come discusso la scorsa settimana, il web scraping per enormi quantità di dati può senza dubbio essere descritto come la salsa segreta dell’IA generativa. I chatbot AI come ChatGPT, LLaMA, Claude (di Anthropic) e Bard (di Google) possono sputare testo coerente perché sono stati addestrati su enormi corpora di dati, per lo più estratti da Internet. E poiché le dimensioni degli LLM di oggi come GPT-4 sono aumentate a centinaia di miliardi di token, anche la fame di dati è aumentata.
Le pratiche di data scraping in nome dell’addestramento dell’IA sono state recentemente attaccate. Ad esempio, OpenAI è stata colpita da altre due nuove cause legali: una intentata il 28 giugno, sempre dallo studio legale Joseph Saveri, afferma che OpenAI ha copiato illegalmente il testo del libro non ottenendo il consenso dai detentori del copyright o offrendo loro credito e risarcimento. L’altro, depositato lo stesso giorno dallo studio legale Clarkson per conto di oltre una dozzina di querelanti anonimi, afferma che ChatGPT e DALL-E di OpenAI raccolgono i dati personali delle persone da Internet in violazione delle leggi sulla privacy.
Quelle azioni legali, a loro volta, arrivano sulla scia di un’azione collettiva intentata a gennaio, Andersen et al. v. Stability AI, in cui i querelanti dell’artista hanno sollevato denunce tra cui la violazione del copyright, e Getty Images ha intentato una causa contro Stability AI a febbraio, per presunta violazione del copyright e del marchio, nonché diluizione del marchio.
Sarah Silverman, ovviamente, aggiunge un nuovo livello di celebrità alle questioni relative all’IA e al copyright, ma cosa significa realmente questa nuova causa per l’IA?
1) Ci sono molte altre cause legali in arrivo.
Margaret Mitchell, ricercatrice e capo scienziata di etica presso Hugging Face, ha definito i problemi di raschiamento dei dati dell’IA “un’oscillazione del pendolo”, aggiungendo che aveva precedentemente previsto che entro la fine dell’anno OpenAI potrebbe essere costretta a eliminare almeno un modello a causa di questi problemi di dati. Certamente, si dovrebbero aspettare molte altre cause legali in arrivo. Nell’aprile del 2022, quando DALL-E 2 è uscito per la prima volta, Mark Davies, partner dello studio legale Orrick con sede a San Francisco, ha convenuto che ci sono molte questioni legali aperte quando si tratta di AI e “fair use” – una dottrina legale che promuove la libertà di espressione consentendo l’uso senza licenza di opere protette da copyright in determinate circostanze. “Quello che succede in realtà è che quando ci sono grosse poste in gioco, fai causa”, ha detto. “E poi ottieni le risposte in un modo specifico per caso.” Le battaglie legali sul diritto d’autore e sul fair use alla fine potrebbero finire alla Corte Suprema, mi ha detto lo scorso ottobre Bradford Newman, che guida la pratica di machine learning e AI dello studio legale globale Baker McKenzie. “Legalmente, in questo momento, ci sono poche indicazioni”, ha detto, sul fatto che l’input protetto da copyright che entra nei dati di formazione LLM sia “fair use”. Tribunali diversi, ha predetto, giungeranno a conclusioni diverse: “In definitiva, credo che questo andrà alla Corte Suprema”.
2) I set di dati saranno sempre più esaminati, ma sarà difficile farli rispettare.
Nella causa di Silverman, gli autori affermano che OpenAI e Meta hanno rimosso intenzionalmente informazioni sulla gestione del copyright come avvisi e titoli di copyright. “Meta sapeva o aveva ragionevoli motivi per sapere che questa rimozione di [informazioni sulla gestione del copyright] avrebbe facilitato la violazione del copyright nascondendo il fatto che ogni output dei modelli linguistici LLaMA è un’opera derivata in violazione”, hanno affermato gli autori nella loro denuncia contro Meta. Le lamentele degli autori hanno anche ipotizzato che ChatGPT e LLaMA siano stati addestrati su enormi set di dati di libri che aggirano le leggi sul copyright, comprese le “biblioteche ombra” come Library Genesis e ZLibrary. “Queste librerie ombra sono state a lungo di interesse per la comunità di formazione AI a causa della grande quantità di materiale protetto da copyright che ospitano”, ha affermato la denuncia degli autori contro Meta. “Per questo motivo, anche queste librerie ombra sono palesemente illegali”. Ma un articolo di Bloomberg Law dello scorso ottobre ha sottolineato che ci sono molti ostacoli legali da superare quando si tratta di combattere il copyright contro una biblioteca ombra. Ad esempio, secondo JonathanBand, un avvocato specializzato in proprietà intellettuale e fondatore di Jonathan Band PLLC, molti degli operatori del sito hanno sede in paesi al di fuori degli Stati Uniti. “Sono al di là della portata della legge sul copyright degli Stati Uniti”, ha detto nell’articolo. “In teoria, si potrebbe andare nel paese in cui è ospitato il database. Ma è costoso e a volte ci sono tutti i tipi di problemi con l’efficacia dei tribunali o se hanno un buon sistema giudiziario o un sistema giudiziario funzionale in grado di eseguire gli ordini. Inoltre, spesso spetta al creatore l’onere di dimostrare che l’uso di opere protette da copyright per l’addestramento all’intelligenza artificiale ha prodotto un’opera “derivata”. In un articolo su The Verge dello scorso novembre, Daniel Gervais, professore alla Vanderbilt Law School, ha affermato che la formazione di un’IA generativa su dati protetti da copyright è probabilmente legale, ma lo stesso non si può necessariamente dire per la generazione di contenuti, ovvero cosa fai con quel modello potrebbe violare. E Katie Gardner, partner dello studio legale internazionale Gunderson Dettmer, mi ha detto la scorsa settimana che il fair use è “una difesa contro la violazione del copyright e non un diritto legale”. Inoltre, può anche essere molto difficile prevedere come usciranno i tribunali in un dato caso di fair use, ha affermato: “C’è una ventina di precedenti in cui due casi con fatti apparentemente simili sono stati decisi in modo diverso”. Ma ha sottolineato che esiste un precedente della Corte Suprema che porta molti a dedurre che l’uso di materiali protetti da copyright per addestrare l’intelligenza artificiale può essere un uso equo basato sulla natura trasformativa di tale uso, ovvero non trapianta il mercato per l’opera originale.
3) Le imprese vorranno i propri modelli o indennizzi.
Le aziende aziendali hanno già chiarito che non vogliono affrontare il rischio di azioni legali relative ai dati di addestramento dell’IA: vogliono un accesso sicuro per creare contenuti generativi di intelligenza artificiale privi di rischi per uso commerciale. È qui che l’indennizzo si è spostato in primo piano: la scorsa settimana, Shutterstock ha annunciato che offrirà ai clienti aziendali un indennizzo completo per la licenza e l’uso di immagini di IA generative sulla sua piattaforma, per proteggerli da potenziali reclami relativi al loro utilizzo delle immagini. La società ha affermato che soddisferà le richieste di indennizzo su richiesta attraverso una revisione umana delle immagini. Quell’annuncio è arrivato appena un mese dopo che Adobe ha annunciato un’offerta simile: “Se un cliente viene citato in giudizio per violazione, Adobe si assumerà la difesa legale e fornirà una copertura monetaria per tali affermazioni”, ha detto un portavoce dell’azienda. E i nuovi dati del sondaggio della piattaforma aziendale MLOps Domino Data Lab hanno recentemente scoperto che i data scientist ritengono che l’IA generativa avrà un impatto significativo sulle aziende nei prossimi anni, ma le sue capacità non possono essere esternalizzate, ovvero le aziende devono perfezionare o controllare la propria generazione Modelli di intelligenza artificiale. Oltre alla sicurezza dei dati, la protezione IP è un altro problema, ha affermato Kjell Carlson, responsabile della strategia di data science presso Domino Data Lab. “Se è importante e ha davvero un valore trainante, allora vogliono possederlo e avere un grado di controllo molto maggiore”, ha affermato.