Perplexity AI, una startup emergente nel campo della ricerca basata sull’intelligenza artificiale, è al centro di una controversia riguardante la raccolta di dati da siti web senza il consenso degli stessi. Cloudflare, una delle principali aziende di infrastrutture Internet, ha accusato Perplexity di utilizzare tecniche di “stealth crawling” per aggirare i blocchi imposti dai siti web attraverso file robots.txt e altre misure di sicurezza. Secondo Cloudflare, Perplexity avrebbe mascherato l’identità dei propri bot, facendoli apparire come browser legittimi, e utilizzato indirizzi IP non dichiarati per accedere a contenuti protetti.
Cloudflare ha dichiarato di aver ricevuto segnalazioni da parte di clienti che hanno notato attività di scraping da parte di Perplexity, nonostante avessero implementato misure per bloccare tali accessi. In risposta, Cloudflare ha creato domini di test con file robots.txt che impedivano l’accesso ai bot, ma ha osservato che Perplexity riusciva comunque a raccogliere dati da questi siti. Inoltre, quando i bot ufficiali di Perplexity venivano bloccati, l’azienda avrebbe utilizzato tecniche per mascherare l’identità dei propri bot, facendoli apparire come richieste provenienti da browser legittimi come Google Chrome su macOS.
Perplexity ha respinto le accuse, definendo l’azione di Cloudflare come un “attacco pubblico per la propria pubblicità”. Un portavoce dell’azienda ha affermato che gli screenshot presentati nel post del blog di Cloudflare non mostrano accessi a contenuti reali e ha insistito sul fatto che il bot in questione “non è nostro”.
Questo episodio solleva importanti questioni etiche e legali riguardanti l’uso dei dati per l’addestramento dei modelli di intelligenza artificiale. Molti esperti ritengono che l’uso non autorizzato dei contenuti web possa violare i diritti d’autore e compromettere la fiducia degli utenti nei confronti delle tecnologie basate sull’IA. Alcuni sostengono che l’accesso ai dati dovrebbe essere regolamentato e che le aziende dovrebbero ottenere il consenso esplicito dei proprietari dei contenuti prima di utilizzarli per scopi commerciali.