Il rapido sviluppo dell’intelligenza artificiale generativa negli ultimi anni ha aperto un ampio dibattito giuridico sull’utilizzo dei dati necessari per addestrare i modelli linguistici di grandi dimensioni. Alla base di questi sistemi vi è la necessità di analizzare e assimilare quantità enormi di testi provenienti da fonti diverse, che includono pagine web, libri digitalizzati, articoli scientifici e database di conoscenza. Questa pratica, fondamentale per la costruzione di modelli linguistici avanzati, ha però sollevato numerose controversie legate ai diritti d’autore e alla proprietà intellettuale dei contenuti utilizzati.
In questo contesto si inserisce la nuova azione legale intrapresa da Encyclopaedia Britannica e dalla sua controllata Merriam-Webster contro OpenAI. Le due storiche istituzioni editoriali hanno depositato una causa presso il tribunale federale degli Stati Uniti nel distretto di Manhattan, sostenendo che i contenuti delle loro enciclopedie e dei loro dizionari sarebbero stati utilizzati senza autorizzazione per l’addestramento dei modelli linguistici alla base di ChatGPT. La controversia rappresenta uno degli episodi più recenti di un conflitto crescente tra l’industria editoriale tradizionale e le aziende che sviluppano sistemi di intelligenza artificiale generativa.
Secondo la denuncia presentata in tribunale, OpenAI avrebbe utilizzato una grande quantità di contenuti digitali provenienti dall’Enciclopedia Britannica e dal dizionario Merriam-Webster come materiale di addestramento per i propri modelli linguistici. Le società editoriali sostengono che almeno centomila articoli dell’enciclopedia siano stati impiegati per costruire il corpus testuale utilizzato nel training dei modelli. L’uso di questi contenuti, secondo i ricorrenti, sarebbe avvenuto senza licenza e senza alcuna forma di compensazione economica, violando così le norme sul diritto d’autore.
Il cuore della disputa riguarda il modo in cui funzionano i modelli linguistici di grandi dimensioni, spesso indicati con l’acronimo LLM. Questi sistemi vengono addestrati su enormi quantità di dati testuali allo scopo di apprendere le strutture linguistiche, le relazioni semantiche tra parole e le modalità con cui le informazioni vengono organizzate nei testi. Durante il processo di addestramento, il modello analizza milioni o miliardi di frasi e sviluppa una rappresentazione matematica della lingua. Questa rappresentazione consente poi al sistema di generare risposte coerenti e informative alle domande degli utenti.
Per ottenere prestazioni elevate, i modelli linguistici devono essere esposti a una grande varietà di fonti informative. Enciclopedie, dizionari e database di conoscenza strutturata rappresentano in questo senso materiali particolarmente preziosi, poiché contengono informazioni organizzate e verificate. Tuttavia, la raccolta e l’utilizzo di questi dati può entrare in conflitto con i diritti di proprietà intellettuale degli editori che li producono.
Nel caso specifico della causa intentata da Britannica e Merriam-Webster, i ricorrenti sostengono che ChatGPT sia in grado di riprodurre parti di voci enciclopediche e definizioni di dizionario in modo quasi identico al testo originale. Secondo l’accusa, questo fenomeno dimostrerebbe che i contenuti proprietari sono stati utilizzati direttamente nel processo di addestramento e che il modello è in grado di rigenerarli in modo molto simile alle versioni pubblicate sui siti ufficiali delle due istituzioni editoriali.
Oltre alla presunta violazione del copyright, la denuncia include anche accuse relative alla violazione dei marchi e alla concorrenza sleale. Le società editoriali affermano che l’intelligenza artificiale potrebbe indurre gli utenti a credere che i contenuti generati siano autorizzati o direttamente collegati alle fonti originali. In alcuni casi, secondo i ricorrenti, ChatGPT avrebbe citato Britannica come fonte di informazioni anche quando il testo generato non corrispondeva realmente alle voci dell’enciclopedia. Questo comportamento, sempre secondo l’accusa, potrebbe danneggiare la reputazione delle istituzioni editoriali e creare confusione tra gli utenti.
Un ulteriore punto centrale della controversia riguarda l’impatto economico che i sistemi di intelligenza artificiale potrebbero avere sul traffico dei siti web editoriali. Britannica sostiene che la disponibilità di riassunti generati automaticamente dall’intelligenza artificiale potrebbe ridurre il numero di utenti che visitano direttamente il sito dell’enciclopedia per consultare le informazioni originali. Se gli utenti ricevono risposte sintetiche direttamente dall’AI, potrebbero non avere più bisogno di accedere alle fonti primarie, con conseguenze potenzialmente negative per il modello economico delle piattaforme editoriali.
Dal canto suo, OpenAI ha respinto le accuse, sostenendo che i propri modelli sono addestrati utilizzando dati pubblicamente disponibili e che l’addestramento dei sistemi rientra nel principio giuridico del fair use, ovvero l’utilizzo lecito di contenuti protetti da copyright per scopi di trasformazione o ricerca tecnologica. L’azienda ha inoltre sottolineato che lo sviluppo dei modelli linguistici contribuisce all’innovazione tecnologica e alla diffusione della conoscenza.
La questione del fair use è uno degli elementi centrali nel dibattito legale sull’intelligenza artificiale. Nel diritto statunitense, questo principio consente l’utilizzo limitato di opere protette da copyright senza autorizzazione, purché l’uso sia trasformativo e non danneggi significativamente il mercato dell’opera originale. Tuttavia, l’applicazione di questo principio ai modelli di intelligenza artificiale è ancora oggetto di discussione nei tribunali, poiché la tecnologia introduce scenari completamente nuovi rispetto alle forme tradizionali di utilizzo dei contenuti.
La causa intentata da Britannica e Merriam-Webster non rappresenta un caso isolato. Negli ultimi anni numerosi editori, autori e aziende dei media hanno avviato azioni legali contro le società che sviluppano sistemi di intelligenza artificiale generativa. Tra i casi più noti vi sono le cause intentate da giornali, case editrici e organizzazioni artistiche che sostengono che i loro contenuti siano stati utilizzati per addestrare modelli AI senza autorizzazione.
Britannica stessa aveva già intrapreso un’azione legale simile contro la startup di ricerca basata sull’intelligenza artificiale Perplexity AI, accusandola di utilizzare contenuti enciclopedici per generare risposte sintetiche nei risultati di ricerca. Queste iniziative riflettono la crescente preoccupazione dell’industria dei contenuti nei confronti dell’espansione delle tecnologie di intelligenza artificiale.
Nel caso della causa presentata a Manhattan, Britannica e Merriam-Webster hanno chiesto non solo un risarcimento economico per l’uso non autorizzato dei loro contenuti, ma anche un’ordinanza del tribunale che impedisca a OpenAI di utilizzare ulteriormente i dati delle loro pubblicazioni senza licenza. Se il tribunale dovesse accogliere queste richieste, la decisione potrebbe avere implicazioni significative per l’intero settore dell’intelligenza artificiale.
