L’ecosistema digitale sta attraversando una fase di profonda trasformazione, dove i dati non sono più solo informazioni da consultare, ma il carburante essenziale per l’addestramento delle intelligenze artificiali. In questo scenario, Google ha recentemente intrapreso una mossa legale di grande impatto, depositando una denuncia presso il tribunale federale della California contro SerpApi, una società con sede in Texas specializzata nel web scraping. L’accusa è quella di aver raccolto massivamente dati dai risultati di ricerca di Google senza alcuna autorizzazione, aggirando le barriere tecnologiche poste a protezione dei contenuti. Questa iniziativa non è solo una disputa tra aziende, ma rappresenta un segnale forte volto a limitare la vendita indiscriminata di dati di ricerca alle imprese che sviluppano modelli di linguaggio, mettendo un freno a una pratica che Google considera un vero e proprio abuso.

Secondo quanto emerso dagli atti legali, SerpApi avrebbe generato centinaia di milioni di richieste di ricerca simulate per apparire come un utente umano, riuscendo così a eludere i sistemi di sicurezza di Google. L’obiettivo di questa attività era quello di estrarre e successivamente rivendere contenuti protetti, tra cui immagini con licenza, mappe, dati in tempo reale e pannelli informativi che compaiono nelle pagine dei risultati. Per Google, questi asset rappresentano il frutto di investimenti massicci e accordi di licenza specifici; vederli prelevati forzatamente tramite “porte secondarie” digitali è stato definito dai legali dell’azienda come un comportamento parassitario. La richiesta al tribunale è chiara: non solo un risarcimento per i danni subiti, ma soprattutto un’ordinanza che ponga fine una volta per tutte alle attività di scraping di questa società.

La risposta di SerpApi non si è fatta attendere, puntando tutto sulla natura pubblica delle informazioni. Secondo la società texana, i dati raccolti sono esattamente gli stessi che qualunque utente può visualizzare gratuitamente attraverso un comune browser, senza necessità di effettuare il login. La loro tesi difensiva sostiene che l’azione legale di Google sia in realtà un tentativo di soffocare la concorrenza e di bloccare l’innovazione in settori cruciali come l’intelligenza artificiale, la sicurezza e la produttività. Facendo appello al Primo Emendamento e al principio del “fair use”, SerpApi si prepara a una battaglia giudiziaria che promette di ridefinire i confini tra ciò che è considerato libero accesso ai dati pubblici e ciò che invece costituisce una violazione della proprietà intellettuale e dei termini di servizio.

Questa causa si inserisce in un clima di tensione crescente che vede coinvolti i principali attori del web. Solo pochi mesi fa, anche Reddit aveva citato in giudizio SerpApi con accuse simili, lamentando il furto di contenuti per l’addestramento di motori di ricerca basati sull’IA. Reddit ha accolto con favore l’intervento di Google, sottolineando come sia necessario proteggere l’apertura di Internet da chi ne sfrutta le dinamiche per scopi puramente commerciali senza restituire valore. È interessante notare come Google si trovi in una posizione ambivalente: da un lato è il principale custode del più grande database di informazioni al mondo, che utilizza esso stesso per addestrare modelli come Gemini, dall’altro deve difendere questo stesso patrimonio dai rivali che cercano scorciatoie per competere nello stesso settore.

L’aspetto strategico della vicenda è evidente se si considera che tra i clienti di servizi come quello offerto da SerpApi figurano nomi del calibro di OpenAI e Perplexity. Consentire a questi concorrenti di accedere liberamente ai flussi di dati di Google tramite intermediari significa, per il colosso di Mountain View, alimentare direttamente i propri avversari. Per questo motivo, Google ha già iniziato a implementare restrizioni tecniche ancora prima di arrivare in tribunale, come la drastica riduzione dei risultati visualizzabili per singola query, passati da cento a soli dieci. Questa contromisura obbliga chi effettua lo scraping a moltiplicare gli sforzi e le scansioni per ottenere la stessa quantità di dati, aumentando i costi e le probabilità di essere individuati dai sistemi di protezione, in una continua corsa agli armamenti digitale tra chi cerca di proteggere i propri dati e chi cerca di estrarli a ogni costo.

Di Fantasy