Cresce la difficoltà nella raccolta di dati web per l’Intelligenza Artificiale

Raccogliere dati dai siti web per addestrare l’intelligenza artificiale sta diventando sempre più difficile. Un recente sondaggio ha rivelato che da scorso anno molti siti hanno iniziato a bloccare i bot di scansione, e il problema è stato evidenziato dallo studio del Data Provincial Initiative (DPI), guidato dal MIT.

DPI ha analizzato 14.000 siti web inclusi nei principali set di dati utilizzati per l’IA, come C4, RfinedWeb e lma. I risultati mostrano che il 5% di tutti i siti ha bloccato i bot nel corso dell’ultimo anno. In particolare, il 25% delle fonti di alta qualità non è più accessibile, e il 45% dei siti inclusi nel set di dati C4 ha bloccato la scansione.

I siti web usano diversi metodi per impedire la raccolta dei dati, tra cui il file “robots.txt”, i termini di utilizzo o la coda dell’agente (Org.Agent). Shane Longfree, uno dei ricercatori, ha sottolineato che questi divieti cresceranno rapidamente e influenzeranno non solo le aziende di IA, ma anche ricercatori e organizzazioni non profit.

I dati sono cruciali per sviluppare sistemi di IA, inclusi testi, immagini, video e audio. Per anni, gli sviluppatori hanno potuto raccogliere dati facilmente, ma il successo di ChatGPT ha sollevato preoccupazioni sul diritto d’autore, portando molti siti a limitare l’accesso ai dati senza autorizzazione o compenso.

Le grandi aziende di IA, come OpenAI, stanno affrontando cause legali e contratti per l’acquisto di dati, mentre altre aziende, come Reddit, stanno esplorando la vendita di dati e creando mercati regolamentati. Le restrizioni sui dati potrebbero essere problematiche per le piccole organizzazioni di IA e i ricercatori che dipendono da set di dati pubblici e non possono permettersi di acquistare licenze.

Yasin Jernite di Hugging Face e Stella Biederman di EleutherAI hanno osservato che le restrizioni colpiranno soprattutto le piccole startup e i ricercatori, mentre le grandi aziende hanno già accesso a molti dati. Anche se l’uso di dati web disponibili al pubblico è considerato “fair use” dalla legge, alcune aziende temono di trovarsi bloccate da un “muro di dati”, dove i dati disponibili sono limitati e accessibili solo tramite paywall o transazioni proprietarie.

Alcuni suggeriscono di usare dati sintetici come alternativa, ma molti dubitano che possano sostituire i dati reali. Inoltre, mentre il file “robots.txt” può impedire l’accesso ai dati, è una misura volontaria e non legalmente vincolante.

I ricercatori sottolineano la necessità di nuovi strumenti per aiutare i proprietari dei siti a controllare l’uso dei loro dati. Longfree propone che i siti web potrebbero distinguere tra usi commerciali e non commerciali dei dati, permettendo alle organizzazioni no-profit e alle istituzioni educative di accedervi.

In conclusione, le grandi aziende di IA devono fare i conti con la realtà che, se continuano a trattare Internet come una risorsa illimitata, potrebbero trovarsi senza accesso ai dati in futuro.

Cresce la difficoltà nella raccolta di dati web per l’Intelligenza Artificiale

DiFantasy

Di Fantasy

Articoli correlati

Elon Musk allude a un prototipo di “auto volante” Tesla in arrivo entro l’anno

Perplexity Patents: agente AI per la ricerca brevettuale

Vibe coding e app usa e getta

Ultimi Post

Elon Musk allude a un prototipo di “auto volante” Tesla in arrivo entro l’anno

Perplexity Patents: agente AI per la ricerca brevettuale

Vibe coding e app usa e getta

La trappola della lusinga digitale: l’eccessiva adulazione delle AI rischia di minare il pensiero critico umano