Anche Perplexity bypassa il web crawling

È stato scoperto che Perplexity, una startup nel campo dell’intelligenza artificiale (AI), ha ignorato le direttive standard per il web che impediscono lo scraping automatico dei siti web (robots.txt). Questo ha permesso a Perplexity di accedere e scansionare il contenuto del sito web di Wired, nonostante le restrizioni imposte dal file robots.txt.

Secondo un rapporto di Fast Company, i motori di ricerca e altre intelligenze artificiali utilizzano programmi chiamati crawler per raccogliere informazioni da Internet. I siti web possono bloccare questi crawler utilizzando il file robots.txt, che specifica quali parti del sito non possono essere scansionate. Tuttavia, l’aderenza a queste regole non è obbligatoria e dipende dalla buona volontà dei crawler.

Wired ha confermato di avere prove che Perplexity ha ignorato queste regole e ha continuato a scansionare e rimuovere contenuti dai suoi siti web nonostante il divieto. In risposta alle accuse, il CEO di Perplexity, Aravind Srinivas, ha negato che la società stesse violando intenzionalmente le regole, affermando che il crawler in questione non appartiene direttamente a Perplexity, ma è gestito da un fornitore esterno di servizi di scansione e indicizzazione.

Quando è stato chiesto se Perplexity avesse ordinato al crawler di interrompere la scansione dei contenuti di Wired, Srinivas ha evitato di rispondere direttamente, descrivendo la situazione come complessa e ribadendo che non c’è nulla di illegale nel loro operato.

È stato anche sollevato il problema che il modello AI di Perplexity potrebbe alterare in modo sottile o fornire risposte imprecise quando viene utilizzato per cercare contenuti specifici come quelli di Wired.

Srinivas ha sostenuto che la risposta del motore di ricerca Perplexity dipende dal prompt fornito, indicando che l’utente medio non vedrebbe necessariamente risultati distorti. Ha anche sottolineato che Perplexity non ha mai negato la possibilità di errori nel funzionamento del suo sistema.

Questa controversia segue un’altra disputa di copyright in cui Perplexity è stata coinvolta all’inizio del mese, quando Forbes ha sollevato preoccupazioni per il riassunto non citato di uno dei loro articoli generato dall’AI di Perplexity. In risposta a Forbes, Srinivas ha dichiarato che Perplexity ha aggiornato il suo sistema per includere citazioni dirette delle fonti all’interno dei testi generati.

Perplexity ha inoltre annunciato di essere in trattative per stabilire accordi di condivisione dei profitti con alcuni editori selezionati, anche se non è stato specificato se Wired o Forbes siano inclusi in questi accordi.

Infine, è stato riportato che anche altre entità, come OpenAI e Anthropic, hanno recentemente ignorato le direttive del file robots.txt mentre raccoglievano dati web per il loro apprendimento dei modelli di intelligenza artificiale.

Anche Perplexity bypassa il web crawling

DiFantasy

Di Fantasy

Articoli correlati

ChatGPT Work porta GPT-5.6 nei workflow aziendali complessi

Anthropic introduce Reflect per analizzare il modo in cui gli utenti usano Claude

Meta lancia Muse Spark 1.1 per agenti AI, coding e workflow multimodali

Ultimi Post

ChatGPT Work porta GPT-5.6 nei workflow aziendali complessi

Anthropic introduce Reflect per analizzare il modo in cui gli utenti usano Claude

Meta lancia Muse Spark 1.1 per agenti AI, coding e workflow multimodali

TabFM di Google porta i foundation model nel machine learning tabellare