Raccogliere dati dai siti web per addestrare l’intelligenza artificiale sta diventando sempre più difficile. Un recente sondaggio ha rivelato che da scorso anno molti siti hanno iniziato a bloccare i bot di scansione, e il problema è stato evidenziato dallo studio del Data Provincial Initiative (DPI), guidato dal MIT.
DPI ha analizzato 14.000 siti web inclusi nei principali set di dati utilizzati per l’IA, come C4, RfinedWeb e lma. I risultati mostrano che il 5% di tutti i siti ha bloccato i bot nel corso dell’ultimo anno. In particolare, il 25% delle fonti di alta qualità non è più accessibile, e il 45% dei siti inclusi nel set di dati C4 ha bloccato la scansione.
I siti web usano diversi metodi per impedire la raccolta dei dati, tra cui il file “robots.txt”, i termini di utilizzo o la coda dell’agente (Org.Agent). Shane Longfree, uno dei ricercatori, ha sottolineato che questi divieti cresceranno rapidamente e influenzeranno non solo le aziende di IA, ma anche ricercatori e organizzazioni non profit.
I dati sono cruciali per sviluppare sistemi di IA, inclusi testi, immagini, video e audio. Per anni, gli sviluppatori hanno potuto raccogliere dati facilmente, ma il successo di ChatGPT ha sollevato preoccupazioni sul diritto d’autore, portando molti siti a limitare l’accesso ai dati senza autorizzazione o compenso.
Le grandi aziende di IA, come OpenAI, stanno affrontando cause legali e contratti per l’acquisto di dati, mentre altre aziende, come Reddit, stanno esplorando la vendita di dati e creando mercati regolamentati. Le restrizioni sui dati potrebbero essere problematiche per le piccole organizzazioni di IA e i ricercatori che dipendono da set di dati pubblici e non possono permettersi di acquistare licenze.
Yasin Jernite di Hugging Face e Stella Biederman di EleutherAI hanno osservato che le restrizioni colpiranno soprattutto le piccole startup e i ricercatori, mentre le grandi aziende hanno già accesso a molti dati. Anche se l’uso di dati web disponibili al pubblico è considerato “fair use” dalla legge, alcune aziende temono di trovarsi bloccate da un “muro di dati”, dove i dati disponibili sono limitati e accessibili solo tramite paywall o transazioni proprietarie.
Alcuni suggeriscono di usare dati sintetici come alternativa, ma molti dubitano che possano sostituire i dati reali. Inoltre, mentre il file “robots.txt” può impedire l’accesso ai dati, è una misura volontaria e non legalmente vincolante.
I ricercatori sottolineano la necessità di nuovi strumenti per aiutare i proprietari dei siti a controllare l’uso dei loro dati. Longfree propone che i siti web potrebbero distinguere tra usi commerciali e non commerciali dei dati, permettendo alle organizzazioni no-profit e alle istituzioni educative di accedervi.
In conclusione, le grandi aziende di IA devono fare i conti con la realtà che, se continuano a trattare Internet come una risorsa illimitata, potrebbero trovarsi senza accesso ai dati in futuro.