Il caso relativo alla violazione del copyright attraverso l’uso di modelli di intelligenza artificiale generativa ha assunto diverse sfumature significative. L’ultimo sviluppo coinvolge una possibile causa legale del New York Times contro OpenAI, accusando quest’ultima di violazione del copyright. Secondo il giornale, i modelli di OpenAI sarebbero stati addestrati utilizzando dati di proprietà intellettuale del NYT e avrebbero emulato lo stile degli autori del giornale per consentire a ChatGPT di generare articoli in modo simile a ogni richiesta.
Questa situazione potrebbe rappresentare uno dei primi casi legali in cui OpenAI si trova effettivamente in difficoltà. Il New York Times ha recentemente modificato i suoi termini di servizio per includere restrizioni alle aziende di intelligenza artificiale che utilizzano i suoi contenuti per addestrare modelli, indicando implicitamente la possibilità di azioni legali contro OpenAI. Se il New York Times dimostrasse con successo che i suoi contenuti sono stati utilizzati illegalmente, OpenAI potrebbe essere costretta a rimuovere l’intero insieme di dati utilizzati per addestrare i modelli e potrebbe essere soggetta a multe fino a $150.000 per ogni violazione di copyright.
Nel frattempo, OpenAI aveva precedentemente stipulato un accordo di licenza con Associated Press (AP) per accedere al loro archivio e migliorare i propri modelli di intelligenza artificiale. Recentemente, OpenAI ha collaborato anche con diverse agenzie di stampa. AP ha deciso di unirsi ad altre organizzazioni giornalistiche per stabilire linee guida sull’uso dell’IA nelle redazioni. Nel loro rapporto, AP ha evidenziato le preoccupazioni di molte testate riguardo all’uso non autorizzato dei loro contenuti.
È indubbio che OpenAI abbia utilizzato l’assistenza del motore di ricerca Bing di Microsoft per la scansione di Internet. Secondo Gilles Babinet, l’azienda potrebbe aver analizzato fino a 250.000 siti web per addestrare GPT, tuttavia questa affermazione va valutata con cautela.
In risposta a ciò, Yann LeCun, a capo di Meta AI, ha fornito una similitudine con i motori di ricerca tradizionali. Ha sottolineato che Google, Bing e altri motori effettuano costantemente la scansione di Internet e ha sollevato la questione su dove sia esattamente il problema. Mentre esiste una distinzione tra scansione e riutilizzo dei contenuti, l’argomento che si tratti di una violazione del copyright sembra meno solido.
Sébastien Hubert ha spiegato che le reti neurali non memorizzano i dati, ma piuttosto rappresentano una comprensione di essi, un processo simile a come agiscono gli esseri umani. Hubert ha spiegato che GPT ha potuto leggere “I tre moschettieri”, ma non sarebbe in grado di citare testualmente alcun capitolo su richiesta. In altre parole, un modello come ChatGPT agisce come un lettore avanzato, senza copiare direttamente.
È interessante notare che il New York Times sta intraprendendo azioni legali solo contro OpenAI e non contro Google per il suo modello Bard. Questo perché, secondo il NYT, il problema risiede nel fatto che Bing sintetizza i contenuti senza generare traffico verso il giornale, danneggiando così i profitti pubblicitari. L’IA di Bing modifica il modello economico di molte piattaforme, un aspetto che ha attirato l’attenzione del NYT solo dopo aver notato che OpenAI collaborava con altri editori ma non con loro.
Va inoltre evidenziato che il New York Times ha siglato un accordo con Google, che prevede che quest’ultimo versi 100 milioni di dollari al NYT nei prossimi tre anni. In cambio, Google otterrà il diritto di pubblicare contenuti sulle sue piattaforme. Google sta attualmente testando nuovi strumenti di scrittura IA in collaborazione con il NYT, il WSJ e il Washington Post, un’azione che potrebbe suggerire una partnership per competere con OpenAI e AP.
GPTBot di OpenAI, recentemente sotto i riflettori, ha affermato che l’azienda eseguirà automaticamente la scansione di Internet e dei siti web per addestrare i suoi modelli di intelligenza artificiale. Le aziende possono escludersi volontariamente da questa scansione inserendo una riga di codice sul proprio sito per bloccare il crawler. Non vi è alcun dubbio che GPT abbia esaminato numerose fonti per il suo addestramento.
Nel 2015, la corte d’appello federale emise una sentenza nel caso di Google contro la scansione di milioni di libri per Google Libri, stabilendo che la biblioteca digitale non costituiva una sostituzione significativa per i libri originali e quindi rientrava nell’ambito del “fair use”. Tuttavia, per OpenAI sarebbe difficile dimostrare questa analogia. Secondo alcuni esperti, ChatGPT potrebbe effettivamente costituire un’alternativa alla consultazione diretta degli articoli del New York Times, riducendo il traffico verso il sito web e alterando quindi il modello economico.
È notevole il fatto che ChatGPT non sia collegato a Internet. Pertanto, anche se il New York Times dimostrasse che il suo contenuto è stato utilizzato illegalmente per addestrare il modello, questo fatto risalirebbe solo fino al taglio dei dati del 2021. Inoltre, la funzione “Sfoglia con Bing” di GPT-4 è stata disattivata recentemente, forse per ragioni simili. È chiaro che OpenAI fosse al corrente delle questioni legate al copyright e abbia preso provvedimenti in anticipo. Tuttavia, dimostrare che si tratta di concorrenza sleale nei confronti del New York Times o che le persone utilizzino il modello solo per riassumere i contenuti nel proprio stile potrebbe essere complesso.
Nonostante ciò, molti scrittori si sono opposti a lungo all’utilizzo della tecnologia di intelligenza artificiale.