Recentemente è emerso che due delle più grandi startup di intelligenza artificiale al mondo, OpenAI e Anthropic, sono coinvolte in pratiche di “crawling”, ossia nel raccogliere dati web indiscriminatamente per l’addestramento dei loro modelli avanzati di intelligenza artificiale.
Secondo quanto riportato da Business Insider, queste aziende sono state accusate di ignorare o eludere il file “robots.txt”, utilizzato dai siti web per impedire lo scraping automatico delle loro pagine.
La controversia è stata portata alla luce da TollBit, una startup che ha scoperto queste pratiche tramite accordi di licenza con editori e altre società di intelligenza artificiale. Tuttavia, TollBit non ha rivelato i nomi delle aziende coinvolte inizialmente.
L’attenzione si è concentrata in particolare su Perplexity, un’altra startup nel campo della ricerca AI, recentemente coinvolta in un controverso caso di furto di contenuti da Forbes. Tuttavia, Business Insider ha confermato che le società coinvolte erano effettivamente OpenAI e Anthropic.
Entrambe le società hanno dichiarato pubblicamente di rispettare le regole di “robots.txt” e di bloccare i loro web crawler, GPTbot e Clodbot, di conseguenza. Tuttavia, secondo le indagini di TollBit, queste dichiarazioni sembrano essere state una formalità, poiché è emerso che alcune aziende, inclusi OpenAI e Anthropic, hanno bypassato “robots.txt” per estrarre dati da siti web o pagine specifiche.
OpenAI ha recentemente stretto accordi significativi con media ed editori globali, ma è anche coinvolta in numerose controversie legali sul copyright. La società ha annunciato di essere al lavoro su un “Media Manager” per consentire ai creatori di contenuti di escludere i propri materiali dall’addestramento degli algoritmi di intelligenza artificiale.
Per quanto riguarda Anthropic, non ci sono molte informazioni sui suoi accordi o azioni legali riguardanti il copyright, ma è evidente che anche questa startup dovrà affrontare sfide significative legate alla gestione dei dati, simili a quelle di OpenAI.