Per anni, Apple è rimasta ai margini delle grandi polemiche legali che hanno investito i giganti della tecnologia in tema di intelligenza artificiale. Google, Microsoft, Meta, persino startup emergenti: tutti, in un modo o nell’altro, hanno affrontato accuse di aver fatto ricorso a opere protette per addestrare i propri modelli. Ora, però, è il turno di Cupertino. E il peso del nome rende la vicenda ancora più significativa: Apple è stata coinvolta per la prima volta in una class action per violazione del copyright legata all’IA.
A innescare la controversia sono stati due scrittori, Grady Hendricks e Jennifer Roberson, che hanno presentato la denuncia alla corte federale del distretto settentrionale della California. Secondo gli atti, i loro libri sarebbero stati copiati senza autorizzazione né compenso e utilizzati come materiale di addestramento per il modello linguistico di Apple, OpenELM.
Gli autori hanno sottolineato con fermezza come Apple non abbia pagato nulla per un progetto potenzialmente redditizio che, nelle loro parole, “si fonda sul lavoro creativo di altri”. Al centro della contesa ci sarebbe un dataset piratato, che avrebbe inglobato le loro opere insieme a migliaia di altri testi, usato per alimentare i sistemi dell’azienda.
OpenELM è un modello linguistico open source, presentato da Apple nell’aprile 2023 con un approccio dichiaratamente orientato alla trasparenza. Si tratta di una serie di modelli ultraleggeri, sviluppati con dimensioni crescenti (da 270 milioni a 3 miliardi di parametri), pensati per funzionare direttamente “on-device” su iPhone e altri dispositivi.
Una mossa che, all’epoca, aveva riscosso consensi: Apple, di fronte alla corsa forsennata ai supermodelli centralizzati, proponeva un’alternativa più sobria, capace di funzionare localmente, con un occhio alla privacy. In quell’occasione, aveva anche pubblicato il dataset utilizzato per il pre-addestramento. Ed è proprio lì che i querelanti sostengono di aver trovato tracce delle loro opere, inglobate senza consenso.
Apple non ha ancora rilasciato dichiarazioni ufficiali. Né i suoi avvocati né i legali degli autori hanno commentato pubblicamente la vicenda. Tuttavia, la causa si inserisce in un filone che, ormai, ha assunto proporzioni globali.
Lo stesso giorno della denuncia, Anthropic ha comunicato di aver raggiunto un accordo da 1,5 miliardi di dollari con alcuni autori che la accusavano di aver incluso libri piratati nei dataset usati per addestrare i suoi modelli.
Nei mesi precedenti, altre aziende si erano ritrovate nella stessa situazione: Microsoft per il training del modello Megatron, Meta con LLaMA e Nvidia con Nemotron, accusata di aver sfruttato una libreria pirata nota come “Book 3”. Tutti casi che mostrano quanto il tema del copyright stia diventando il punto di frizione più caldo nello sviluppo dell’IA generativa.
La causa contro Apple solleva interrogativi cruciali. Se i dataset usati per addestrare i modelli contengono opere protette, chi deve rispondere legalmente? Le aziende tecnologiche, che utilizzano quei dati, o i curatori dei dataset? E soprattutto: l’uso di materiale protetto per l’addestramento di un modello può essere considerato “fair use”, cioè un utilizzo legittimo a fini di ricerca e trasformazione, o rappresenta un chiaro caso di sfruttamento illecito?
È un dibattito che non riguarda solo la legge, ma anche l’etica. Da un lato, gli autori chiedono tutele concrete per il proprio lavoro. Dall’altro, le aziende sostengono che senza grandi quantità di dati — spesso pescati nel mare aperto del web — l’IA non potrebbe crescere. In mezzo, c’è il rischio di paralizzare l’innovazione o, al contrario, di svalutare la creatività umana.
Il caso di Apple, proprio perché è il primo che coinvolge direttamente il colosso di Cupertino, rischia di diventare un precedente importante. Non si tratta solo di stabilire un risarcimento, ma di definire i confini legali del rapporto tra creatività umana e intelligenza artificiale.
Se i tribunali daranno ragione agli scrittori, Apple — e con lei l’intero settore — potrebbe trovarsi costretta a ripensare radicalmente i metodi di raccolta e utilizzo dei dati. Se invece la bilancia penderà verso il “fair use”, il futuro dell’IA potrebbe essere ancora più libero, ma al prezzo di nuove tensioni con autori ed editori.