Crawl-to-refer: Claude di Anthropic scansiona migliaia di pagine, ma quanti clic restituisce?

C’è qualcosa di inquietante nella dinamica che si sta delineando tra le piattaforme di intelligenza artificiale, i creatori di contenuti sul web, e il modo in cui il traffico — il vero “valore” per molti siti — viene generato. Guardando i numeri più recenti, in particolare quelli raccolti da Cloudflare, emerge che Anthropic, azienda che promuove l’etica nella AI e il rispetto delle fonti, è tra le protagoniste di una situazione che molti osservatori descrivono come uno squilibrio sempre più marcato tra la quantità di dati che “ruba” (nel senso di contenuti web esplorati) e ciò che restituisce (in termini di visitatori umani diretti al sito).

Claude, il chatbot di Anthropic, viene indicato come uno dei sistemi con il rapporto “crawl-to-refer” più alto. Cosa significa questo? Letteralmente che per decine di migliaia di richieste di crawling (cioè richieste fatte da bot dell’AI per leggere pagine web) c’è una soltanto che genera un click umano che porta un visitatore verso il sito originale. In altre parole, il bot legge moltissimo, ma restituisce pochissimo traffico utilizzabile. Questo fenomeno emerge con nettezza nei dati di Cloudflare Radar: ad esempio, nel mese di luglio 2025, si stima che Anthropic abbia avuto un rapporto dell’ordine di 38.000 pagine crawler per ogni singola pagina visitata su referral umano.

Altri attori si presentano in modo diverso: OpenAI ha anch’essa un rapporto elevato, ma largamente inferiore a quello di Anthropic; Perplexity, Microsoft, Google presentano squilibri meno drastici, specialmente se si considerano le differenze nel modo in cui operano i crawler, cosa chiedono all’utente finale, quanto citano le fonti, etc.

Il dato interessante è che non si tratta di un fenomeno statico: il rapporto per Anthropic è migliorato nel corso del tempo; cioè, il numero di referral umani per pagine crawl-ate è aumentato rispetto ai mesi precedenti. Ma anche dopo questo miglioramento, il divario resta gigantesco.

Questo squilibrio tra “prendere contenuti” e “restituire traffico” ha implicazioni reali, non teoriche. Per i proprietari di siti web, significa che il costo di essere “lettori passivi” per le AI può gravare fortemente: consumo di larghezza di banda, risorse server, altra infrastruttura, senza che questo si traduca in visite, né in pubblicità, né in abbonamenti, né in riconoscimento. Il vecchio “patto non scritto” del web — ovvero che pubblicare contenuti gratis portava in cambio traffico dai motori di ricerca — sembra incrinarsi, perché ora l’accesso avviene molto più tramite bot, molto meno tramite visite umane.

Dall’altro lato, c’è una contraddizione tra l’immagine che alcune aziende promuovono — rispetto per i contenuti, etica, trasparenza — e la realtà del comportamento dei crawler. Anthropic stessa, pur difendendosi contro le critiche, ha ammesso che la metodologia che genera queste metriche può essere imperfetta, che il dato non prende in considerazione tutto, per esempio le app native, che non sempre generano header “Referer”, quindi parti del traffico umano reale potrebbero non essere contate.

Non è facile tracciare una linea netta tra “uso accettabile” e “estrazione sleale”. Ci sono molte complessità: che tipo di crawler si sta usando, se rispetta i metadati come robots.txt, se le richieste sono solo per training o anche per rispondere a utenti finali, se il traffico proviene da web o tramite app (che spesso non inviano riferimenti, complicando la misurazione), se il sito ha adottato misure per citazioni o per condivisione.

Alcune soluzioni emergenti sono già in discussione o in sperimentazione. Per esempio, Cloudflare ha introdotto la metrica “crawl-to-refer” proprio per dare trasparenza, per far capire ai proprietari dei siti quanto accade “dietro le quinte”. Altre soluzioni proposte includono richieste di pagamento per il crawling (“pay-per-crawl”), blocco selettivo dei bot, limiti tecnici, regole più rigide nei robots.txt, politiche di licenza, strumenti normativi, e maggiore responsabilità da parte delle aziende AI.

Alla fine, la questione non è solo tecnica o economica, ma anche morale: che tipo di “ecosistema web” vogliamo mantenere? Un ecosistema dove il contenuto è prodotto con fatica, con competenza, ma dove le visite umane devono diventare ridotte a favore di risposte AI che non conducono al sito originale? Oppure vogliamo modelli in cui le AI consumano dati, ma restituiscono valore, traffico, visibilità, riconoscimento, compenso?

Anthropic ha davanti a sé una prova: non basta dichiarare “etica” come principio; è necessario che le azioni riflettano quel principio, che i bot restituiscano più traffico, che le fonti vengano citate, che i creatori di contenuti possano contare su un ritorno, espresso non solo in riconoscimento, ma in visite, in economie, in sostenibilità. E il pubblico, la comunità tecnica, i legislatori hanno la responsabilità di monitorare, di chiedere trasparenza, magari anche di stabilire regole chiare, affinché non sia solo chi ha risorse che può sopportare lo “sfruttamento passivo” del proprio contenuto.

Crawl-to-refer: Claude di Anthropic scansiona migliaia di pagine, ma quanti clic restituisce?

DiFantasy

Di Fantasy

Articoli correlati

Aumentano i prezzi di Microsoft 365: AI e nuove funzionalità alzano il costo

Meta ridimensiona il metaverso e punta sull’Intelligenza Artificiale

Il costo energetico nascosto dell’Intelligenza Artificiale a inferenza

Ultimi Post

Aumentano i prezzi di Microsoft 365: AI e nuove funzionalità alzano il costo

Meta ridimensiona il metaverso e punta sull’Intelligenza Artificiale

Il costo energetico nascosto dell’Intelligenza Artificiale a inferenza

I progressi “di corsa” del robot umanoide Tesla Optimus