Recentemente sono emerse informazioni sulle principali aziende coinvolte nel “web crawling” per il raccoglimento di dati destinati all’apprendimento dell’intelligenza artificiale (AI). Queste includono giganti come OpenAI, Antropic, ByteDance (la società madre di TikTok) e Amazon.
Cloudflare, una nota società di sicurezza Internet, ha presentato sul suo blog ufficiale uno strumento di prevenzione del web crawling chiamato “AI & Dependence”. Questo programma gratuito consente di bloccare immediatamente i bot che cercano di eseguire scansioni del web con un semplice clic.
Ciò che ha suscitato maggiore attenzione è stata l’annuncio di “AI Crawler User Agent Activity Aggregation” da parte di Cloudflare. Questo rivelava la frequenza con cui i crawler delle principali aziende avevano contattato la rete di Cloudflare nel corso dell’ultimo anno.
I principali crawler identificati includono “Bytespider” di ByteDance, “Amazonbot” di Amazon, “ClaudeBot” di Antropic e “GPTBot” di OpenAI.
ByteDance utilizza il suo Bytespider per raccogliere dati per il suo modello linguistico su larga scala, noto come “Doubao”. Questo modello compete in popolarità in Cina insieme a “Erniebot” di Baidu.
Amazonbot e ClaudeBot hanno registrato un alto numero di tentativi di accesso al web. Amazon ha intensificato lo sviluppo dei suoi modelli linguistici lo scorso anno, mentre Antropic ha visto un significativo aumento dell’attività di crawling, particolarmente con il suo recente “Claude 3”.
Cloudflare ha riportato che Bytespider di ByteDance è leader per il numero di richieste di accesso al web e per l’estensione della scansione delle proprietà Internet. GPTBot di OpenAI segue da vicino, classificandosi secondo sia per la scansione che per il blocco.
Negli Stati Uniti, ci sono crescenti critiche nei confronti del web crawling delle aziende di AI, con rapporti che indicano pratiche discutibili come la copia non autorizzata di contenuti da parte di startup come Perplexity. Anche Perplexity ha risposto alle accuse di Cloudflare, affermando di non aver compiuto azioni illegali.
Recentemente, OpenAI e Antropic sono stati accusati di aggirare i protocolli anti-crawling e di utilizzare contenuti Internet senza consenso per l’apprendimento dell’AI. Cloudflare ha confermato queste affermazioni attraverso i suoi dati.
Attualmente, la pratica comune per impedire il web crawling è l’uso del file “robots.txt” che specifica le regole per l’accesso al sito. Tuttavia, ci sono preoccupazioni riguardo ad OpenAI e ad altre aziende che sembrano aver continuato a utilizzare metodi che bypassano queste restrizioni, nonostante le dichiarazioni ufficiali di rispetto dei protocolli.
Cloudflare ha anche segnalato l’uso da parte degli operatori di bot di agenti utente falsi per apparire come browser reali. La società ha promesso di continuare a monitorare e ad aggiungere più blocchi ai suoi sistemi per contribuire a mantenere Internet sicuro.