È una delle controversie legali più recenti e significative nell’universo dell’intelligenza artificiale, un conflitto che mette al centro domande importanti sul rapporto tra chi crea contenuti, chi li aggrega, chi li sintetizza, e chi fornisce risposte automatiche agli utenti. Da un lato c’è Perplexity, startup che fa della “answer engine” (motore di risposte) il suo punto di forza: l’idea è che invece di mostrare all’utente solo link a siti, Perplexity cerchi sul web, sintetizzi contenuti, produca risposte rapide e contestualizzate, aggregando fonti. Dall’altro ci sono Encyclopaedia Britannica e Merriam-Webster, istituzioni con decenni (o secoli) di storia, che sostengono di non essere soltanto fonti da cui attingere, ma titolari di contenuti creativi, curati, con investimenti di redazione, ricerca, verifiche.
Britannica e Merriam-Webster hanno presentato una denuncia federale a New York contro Perplexity nei primi giorni di settembre 2025, accusandola sostanzialmente di due tipi di violazioni: violazione del copyright e violazione del marchio.
La denuncia sostiene che Perplexity, con il suo motore di risposte, abbia “raschiato” i loro siti web (scraping) per ottenere articoli, definizioni, contenuti protetti da copyright, senza autorizzazione. Non si tratta solo di usare i dati: secondo Britannica e Merriam-Webster, Perplexity avrebbe anche riprodotto parti di testo in modo praticamente identico, talvolta in forma verbatim (cioè parola per parola) o quasi, inclusa la definizione della parola “plagiarize” stessa, che secondo Merriam-Webster è stata riprodotta da Perplexity in modo quasi identico.
Non solo: Britannica argomenta che questo comportamento sottrae traffico web al loro sito. Il traffico è un elemento vitale per editori come Britannica e Merriam-Webster, perché è legato agli abbonamenti, pubblicità, visibilità, credibilità. Se l’utente ottiene la risposta già dentro l’interfaccia dell’AI, potrebbe non sentire il bisogno di cliccare su Britannica o Merriam-Webster per leggere la fonte originale.
Le accuse includono anche uso improprio del marchio (trademark). In sostanza, si addebita a Perplexity di associare il nome di Britannica o di Merriam-Webster a contenuti generati dall’AI che possono essere incompleti, inesatti o “inventati” (ossia le cosiddette “hallucinations”), inducendo l’utente a credere che il contenuto sia effettivamente supervisionato o approvato da quei marchi.
Perplexity non ha rilasciato una dichiarazione formale nel momento in cui è uscita la notizia della causa, almeno non nei dettagli della denuncia. Tuttavia, in passato Perplexity ha sostenuto di operare entro i limiti del “fair use” (uso lecito), di rispettare richieste di blocco (robots.txt) quando possibile, e di aver già avviato programmi con editori per la condivisione dei ricavi (publisher programs).
In particolare, Perplexity ha argomentato che molti output sono trasformativi, che il semplice fatto di aggregare, sintetizzare o parafrasare non necessariamente infrange il copyright, e che citare le fonti è parte del loro approccio. Sostenitori e legali spesso evidenziano che evitare il “linking” diretto non è equivalente a una appropriazione illecita. Tuttavia, gli esempi specifici di testo riprodotto parola per parola complicano la posizione di difesa.
Non è un caso isolato. È parte di una serie più ampia di controversie legali che vedono editori, publisher, testate giornalistiche muoversi contro le aziende di intelligenza artificiale che usano contenuti protetti da copyright senza autorizzazione, o che attribuiscono loro contenuti generati automaticamente. Alcuni editori hanno già raggiunto accordi di licenza con aziende AI; altri, come Britannica in questo caso, scelgono la via legale.
Questa causa potrebbe fungere da precedente importante. Le decisioni o gli accordi che emergeranno potrebbero definire in modo più chiaro cosa si può o non si può fare con contenuti protetti online: quali limiti ha l’AI nell’estrazione dei dati, quanto “trasformativa” debba essere una riscrittura, come debbano essere attribuiti i marchi, se i marchi possano essere associati ad output di AI che non sono verificati, o che contengono errori.
Inoltre, dal punto di vista economico, è una questione di sostenibilità. Se tutti gli editori perdono traffico a favore di sistemi che rispondono direttamente senza rimando al sito originale, il modello economico basato sui contenuti originali rischia di essere minato. Questo potrebbe spingere verso nuovi modelli di licenza, compensi automatici, standard normativi che regolano l’uso automatico di contenuti protetti.