Il nuovo fronte della “AI data war” non è fatto di chip o modelli da miliardi di parametri, ma di link, robot.txt, API e clausole d’uso. Reddit ha citato in giudizio Perplexity presso un tribunale federale di New York, accusando l’azienda e tre partner di scraping di aver aggirato le protezioni tecniche e contrattuali per attingere ai contenuti della piattaforma e alimentarci il proprio “answer engine”. È l’ennesimo capitolo della battaglia — sempre più esplicita — tra chi produce e ospita contenuti e chi costruisce prodotti d’intelligenza artificiale che su quei contenuti si nutrono. La notizia, rilanciata da Analytics India Magazine, ha già fatto il giro delle redazioni tech e mette a nudo una frattura di fondo: cosa è “lecito” prelevare dal web, e a quali condizioni, quando la posta in gioco è l’addestramento e il funzionamento di sistemi generativi?

Secondo il ricorso, Perplexity e i fornitori di scraping avrebbero violato le barriere che Reddit ha eretto nel tempo — tecniche, contrattuali e di accesso — per impedire l’estrazione sistematica dei contributi della community. Gli episodi citati sono più di un indizio: dalle richieste di “cessate e desistete” inviate già nel maggio 2024, alla successiva crescita delle citazioni di Reddit dentro Perplexity che, anziché calare, sarebbe esplosa; fino agli esperimenti “canarino” — post visibili solo a Google — che sarebbero poi emersi nelle risposte dell’answer engine, suggerendo vie laterali d’accesso al corpus della piattaforma. Il quadro tratteggiato da Reuters, The Verge e Business Insider è quello di un aggiramento delle regole della casa per ottenere, comunque, il valore della casa. Perplexity respinge le accuse e sostiene di non usare contenuti Reddit per l’addestramento, rivendicando un ruolo di indicizzazione dei fatti pubblici: una linea difensiva che promette scintille giuridiche e semantiche nelle prossime settimane.

È impossibile separare questa causa dal contesto economico in cui nasce. Reddit non è soltanto un social forum: è un archivio vivente di conoscenza situata — guide, testimonianze, troubleshooting, opinioni pratiche — che i motori di ricerca hanno imparato a considerare di prima qualità per “capire” la rete e per rispondere alle domande degli utenti. Non a caso, negli ultimi due anni la piattaforma ha imboccato la via delle licenze: accordi con Google e con OpenAI hanno monetizzato l’accesso ordinato ai dati, trasformando ciò che prima era “traffico” in una nuova riga di ricavo. In questo scenario, lo scraping non autorizzato non è soltanto un torto concettuale ma una minaccia al modello di business emergente. Bloomberg e il Columbia Journalism Review hanno raccontato bene questo passaggio: Reddit vuole essere pagata per il valore che genera nei sistemi d’IA, non solo per il traffico che invia ai siti.

La partita è anche culturale e riguarda il futuro del web pubblico. Per decenni abbiamo vissuto nell’equilibrio implicito del “link economy”: i crawler leggevano pagine, i motori restituivano traffico, gli editori monetizzavano. L’IA generativa spezza quel patto: se la risposta vive già dentro un assistente, l’utente non deve più “andare” da nessuna parte. In questo shift, il confine tra “citazione” e “estrazione” diventa scivoloso e le clausole d’uso, i file robots.txt, i paywall e le API a pagamento diventano strumenti di difesa o di negoziazione. Non sorprende, quindi, che l’Associated Press parli di “industrial-scale scraping” e che altri editori, dal New York Times in giù, abbiano diffidato Perplexity chiedendo di fermarsi. È la normalizzazione di un conflitto: se i contenuti sono il nuovo petrolio, i pozzi non resteranno aperti gratis.

Sul piano legale, la causa promette di toccare più fili scoperti: violazione dei termini d’uso e del consenso espresso dagli strumenti di esclusione (robots.txt), possibile concorrenza sleale, e — soprattutto — la distinzione tra uso per addestramento, uso per indicizzazione e uso per generazione in tempo reale. È un distinguo tutt’altro che accademico: le difese dei modelli generativi spesso si appoggiano sull’idea che “i fatti non sono protetti da copyright”, mentre le piattaforme ribattono che l’estrazione massiva a fini commerciali, in spregio alle regole di accesso, resta vietata. Anche per questo la reazione pubblica di Perplexity su Reddit punta a incorniciare la vicenda come un problema di “pubblicità dei dati” e di modello d’affari dei siti; ma davanti a un giudice peseranno protocolli, log, percorsi di accesso, termini sottoscritti. L’esito, quale che sia, farà giurisprudenza nella stagione in cui i grandi modelli “vedono” sempre più web in tempo reale.

Dietro la cronaca si intravede un nuovo equilibrio industriale. Da una parte, gli “hub di contenuti” cercano di federarsi in coalizioni di licensing per alzare il prezzo dell’accesso e per legare l’uso dei dati a condizioni verificabili (audit, brand safety, watermarking della provenienza, revenue share sulle risposte AI). Dall’altra, i costruttori di answer engine e assistenti conversazionali inseguono una base dati ampia e fresca per reggere la pressione competitiva di modelli che devono “sapere tutto, subito”, senza rimanere prigionieri di pochi fornitori. Il probabile punto d’incontro è un mercato più regolato: meno scraping “grigio”, più accordi granulari, più trasparenza su come i contenuti entrano nelle risposte, e — se le autorità lo riterranno necessario — cornici regolatorie che chiariscano quando l’accesso pubblico del web equivale o no a una licenza d’uso commerciale.

Per chi costruisce prodotti in Europa e in Italia, la lezione è doppiamente utile. Primo: la sovranità dei dati non è uno slogan ma un’architettura contrattuale e tecnica; chi custodisce knowledge base, manuali, forum clienti, ha in mano asset che vanno protetti e valorizzati con API e policy chiare, non affidati al caso dei crawler. Secondo: la compliance non è alternativa all’innovazione — al contrario, i player che sapranno certificare la provenienza dei propri dati e negoziare accessi “puliti” saranno quelli che integreranno l’IA generativa con meno rischi legali e reputazionali. Terzo: si apre spazio per intermediari specializzati, capaci di trasformare contenuti sparsi in “dataset licenziabili” ad alta qualità, con metadati e controlli, aprendo una filiera nuova tra editori, aziende e sviluppatori di modelli.

C’è, infine, un punto di realpolitik. Reddit oggi denuncia lo scraping “non pagato” proprio mentre costruisce un canale “pagato” per l’IA. È coerente: ogni ecosistema digitale, quando matura, cerca rendite che stabilizzino il conto economico. Perplexity, che si propone come alternativa “risposta-prima” ai motori tradizionali, ha bisogno di fonti affidabili per non deragliare in allucinazioni; la tentazione di pescare laddove il sapere è denso è fortissima. La soluzione sostenibile — e socialmente desiderabile — passa per tre mosse: licenze eque con audit di uso, strumenti tecnici di enforcement che rendano lo scraping illegittimo costoso e rischioso, e prodotti generativi che riconoscano e retribuiscano la filiera della conoscenza da cui attingono. Se questa causa accelererà il passaggio dal far west del “prendo e basta” a un mercato ordinato dei dati, allora avrà avuto un merito che va oltre i due contendenti.

Di Fantasy