Anthropic, addestramento AI e libri scansionati: il Progetto Panama

Negli ultimi mesi sono emersi dettagli che gettano nuova luce su uno dei nodi più delicati dell’intelligenza artificiale moderna: il rapporto tra addestramento dei modelli e diritto d’autore. Al centro della vicenda c’è Anthropic, azienda nota per lo sviluppo di modelli linguistici avanzati, che avrebbe acquistato e scansionato milioni di libri fisici con l’obiettivo di evitare problemi di copyright legati all’apprendimento automatico. Questa strategia, sebbene riconosciuta in parte come legittima da un tribunale statunitense, non ha comunque impedito all’azienda di trovarsi coinvolta in una delle più costose controversie legali mai viste nel settore, conclusasi con un risarcimento da 1,5 miliardi di dollari.

La vicenda è diventata pubblica grazie a documenti giudiziari ottenuti e diffusi dal Washington Post nell’ambito della class action intentata da un gruppo di scrittori. Dai materiali depositati in tribunale emerge l’esistenza di un piano interno, avviato in segreto all’inizio del 2024, denominato “Progetto Panama”. Nelle comunicazioni interne, questo progetto veniva descritto in termini espliciti come il tentativo di “scansionare in modo distruttivo ogni libro del mondo”, accompagnato dall’indicazione che l’iniziativa dovesse rimanere riservata.

Il cuore del progetto era tanto semplice quanto radicale: acquistare legalmente milioni di volumi, tagliarli fisicamente, scansionarli con sistemi ad alta velocità e qualità e infine utilizzarli come materiale di addestramento per l’intelligenza artificiale. Per realizzare questa operazione, Anthropic avrebbe pianificato di spendere decine di milioni di dollari in circa un anno e di collaborare con fornitori in grado di digitalizzare tra 500.000 e 2 milioni di libri in pochi mesi. Dopo la scansione, i volumi venivano separati con cesoie idrauliche e avviati al riciclo, trasformando di fatto i libri fisici in archivi digitali destinati ai modelli di apprendimento.

A guidare questo progetto è stato chiamato Tom Tuvey, figura con una lunga esperienza nella Silicon Valley e già coinvolto, circa vent’anni prima, nel progetto Google Libri. La scelta di affidarsi a un profilo con questo passato non è casuale: Anthropic voleva evitare il rischio di replicare pratiche controverse basate sul download indiscriminato di contenuti protetti, puntando invece sull’acquisto diretto dei libri come forma di compensazione economica per editori e autori.

Dal punto di vista legale, questa strategia ha trovato un primo riconoscimento importante. Nel giugno scorso, il giudice William Alsup ha stabilito che l’uso trasformativo dei libri acquistati e scansionati per l’addestramento dell’AI poteva rientrare nel concetto di fair use. Secondo il giudice, l’addestramento dei modelli non era finalizzato a replicare o sostituire i testi originali, ma poteva essere paragonato a un processo educativo, simile all’insegnamento della scrittura a uno studente. In sostanza, l’AI non “copia” i libri, ma impara da essi per creare qualcosa di nuovo.

Decisioni simili sono emerse anche in procedimenti che hanno coinvolto Meta, dove i querelanti non sono riusciti a dimostrare che l’addestramento dei modelli potesse danneggiare direttamente le vendite dei libri. Questo ha portato alcuni osservatori a ritenere che le pratiche di apprendimento delle aziende AI fossero ormai ampiamente legittimate. Tuttavia, il caso Anthropic dimostra che la questione è più complessa.

Il vero punto critico non riguarda infatti i libri acquistati e scansionati, ma l’uso parallelo di dataset provenienti da fonti piratate. Secondo i documenti giudiziari, uno dei cofondatori di Anthropic, Ben Mann, avrebbe scaricato grandi quantità di romanzi e altri materiali da LibGen già nel 2021, segnalando poi ai colleghi l’esistenza di mirror di biblioteche pirata ritenuti “perfetti” per reperire contenuti. Sebbene Anthropic abbia sostenuto di non aver mai utilizzato questi dataset per addestrare modelli commerciali completi, il tribunale ha comunque riconosciuto lo status di class action agli autori i cui libri erano presenti in queste librerie illegali.

A differenza della scansione dei libri acquistati, l’uso di copie piratate è stato considerato una violazione del copyright. Per evitare un processo potenzialmente lungo e dannoso, Anthropic ha scelto di chiudere la causa con un accordo economico da 1,5 miliardi di dollari, senza ammettere formalmente alcun illecito. Una cifra che, da sola, mostra quanto il rischio legale legato ai dati di addestramento sia diventato centrale per le aziende di intelligenza artificiale.

Anche Meta si è trovata in una situazione simile. Dai documenti processuali è emerso che alcuni dipendenti avevano espresso preoccupazioni interne sul download non autorizzato di milioni di libri, attività che sarebbe stata approvata ai massimi livelli aziendali. Il giudice Vince Chhabria ha riconosciuto che l’uso dei libri per l’addestramento poteva rientrare nel fair use, ma ha comunque permesso che il procedimento proseguisse sulle accuse di distribuzione di copie illegali.

Secondo James Grimmelman, professore di diritto digitale alla Cornell University, molte delle questioni sollevate da queste cause restano giuridicamente irrisolte. Se acquistare libri per uso personale è generalmente accettato, l’utilizzo di copie piratate rimane una chiara violazione dei diritti di proprietà intellettuale. Il problema, sostiene Grimmelman, è che pratiche nate nel contesto della ricerca accademica si sono estese al mondo commerciale senza un adeguato ripensamento delle implicazioni legali.

Da questo punto di vista, la scelta di Anthropic di acquistare fisicamente i libri e garantire un ritorno economico diretto agli editori viene oggi vista da molti come una decisione lungimirante. Pur non conferendo automaticamente il diritto di digitalizzazione, questa strategia ha ridotto l’impatto sul mercato commerciale, uno dei criteri fondamentali del fair use, dimostrando un tentativo concreto di rispettare lo spirito della legge.

Il caso Anthropic si inserisce in un contesto più ampio, in cui aziende come OpenAI, Google, Microsoft e Nvidia sono coinvolte in procedimenti simili. Il verdetto finale su come i dati protetti da copyright possano essere utilizzati per addestrare l’intelligenza artificiale non è ancora definitivo. Ciò che emerge con chiarezza, però, è che il futuro dell’AI non dipenderà solo dalla potenza dei modelli, ma anche dalla capacità delle aziende di costruire basi legali solide per i dati su cui questi modelli vengono addestrati. In questo senso, la vicenda dei libri scansionati da Anthropic rappresenta un precedente fondamentale, destinato a influenzare l’intero settore negli anni a venire.

Anthropic, addestramento AI e libri scansionati: il Progetto Panama

DiFantasy

Di Fantasy

Articoli correlati

22 bug nel browser Firefox: lo studio di Anthropic e Mozilla

Agente AI ROME di Alibaba ha tentato di estrarre criptovalute durante l’addestramento

LocalCowork e il modello LFM2-24B-A2B: agenti intelligenti di Liquid AI eseguiti interamente in locale per ambienti aziendali sensibili

Ultimi Post

22 bug nel browser Firefox: lo studio di Anthropic e Mozilla

Agente AI ROME di Alibaba ha tentato di estrarre criptovalute durante l’addestramento

LocalCowork e il modello LFM2-24B-A2B: agenti intelligenti di Liquid AI eseguiti interamente in locale per ambienti aziendali sensibili

HumanLM: simulare il comportamento umano con l’AI