Il web scraping per l’acquisizione di enormi quantità di dati può sicuramente essere considerato la chiave segreta dell’IA generativa. I chatbot AI come ChatGPT, Claude, Bard e LLaMA sono in grado di generare testo coerente perché sono stati addestrati su vasti corpora di dati, principalmente estratti da Internet. Con l’aumento delle dimensioni dei modelli di IA come GPT-4, che raggiungono ora centinaia di miliardi di token, la necessità di dati è cresciuta proporzionalmente.
Recentemente, le pratiche di web scraping per l’addestramento dell’IA sono state oggetto di critiche e azioni legali. OpenAI è stata coinvolta in due cause. Una di esse, presentata presso il tribunale federale di San Francisco, sostiene che OpenAI abbia copiato illegalmente testi di libri senza ottenere il consenso dei detentori del copyright né fornire loro credito o compensazione. L’altra accusa ChatGPT e DALL·E di OpenAI di raccogliere illegalmente dati personali dalle persone su Internet, violando le leggi sulla privacy.
Anche Twitter è stato coinvolto in una controversia sul web scraping, ma questa volta ha cercato di proteggere i propri dati limitandone l’accesso. Per mitigare gli effetti del web scraping per l’addestramento dell’IA, Twitter ha temporaneamente impedito alle persone che non avevano effettuato l’accesso di visualizzare i tweet sulla piattaforma dei social media e ha imposto limiti di velocità al numero di tweet visualizzabili.
Da parte sua, Google ha riconosciuto esplicitamente di raccogliere dati per l’addestramento dell’IA. Di recente, ha aggiornato silenziosamente la sua politica sulla privacy per includere Bard e Cloud AI insieme a Google Translate come servizi in cui i dati raccolti possono essere utilizzati.
Secondo Margaret Mitchell, ricercatrice e capo scienziata di etica presso Hugging Face, tutte queste notizie sul web scraping per l’addestramento dell’IA non sono una coincidenza. Ha affermato che era già prevedibile che entro la fine dell’anno OpenAI potesse essere costretta a rimuovere almeno un modello a causa di problemi legati ai dati. Le recenti notizie, secondo Mitchell, indicano che questo futuro è ormai visibile, e ammette che “è ottimista pensare che qualcosa del genere accada mentre OpenAI si sta avvicinando così tanto alle autorità di regolamentazione”.
Mitchell ha sottolineato che il pubblico sta imparando sempre di più sui modelli di intelligenza artificiale generativa e che il focus si sta spostando dal fascino iniziale di ChatGPT alla domanda su quale sia l’origine dei dati per questi modelli.
L’avvocato specializzato in diritto sulla privacy Gregory Leighton, dello studio legale Polsinelli, concorda che il dibattito sul web scraping dei dati sta guadagnando sempre più rilevanza. Le azioni legali da sole intraprese da OpenAI, afferma Leighton, sono un punto di svolta sufficiente per rendere inevitabili ulteriori restrizioni. “Siamo ancora nei primi stadi dell’era dei modelli di linguaggio di grandi dimensioni, quindi era prevedibile che ciò accadesse ad un certo punto”, ha affermato. “Google e Twitter stanno implementando alcune di queste restrizioni nei loro contesti”.
Katie Gardner, avvocato del noto studio legale internazionale Gunderson Dettmer, ha dichiarato che per aziende come Twitter e Reddit, la “sfida competitiva risiede nei dati”, pertanto non vogliono che questi vengano estratti gratuitamente da terze parti.
“Non sorprenderà se le aziende continueranno ad adottare misure per limitare l’accesso, massimizzare i diritti di utilizzo e mantenere opportunità di monetizzazione per se stesse”, ha affermato Gardner. “Le aziende con grandi quantità di contenuti generati dagli utenti, che in passato potevano fare affidamento sulle entrate pubblicitarie, potrebbero trarre vantaggio da nuovi modi per monetizzare i dati degli utenti per l’addestramento dei modelli di IA, sia per uso interno che concedendo in licenza i dati a terzi”.
Leighton di Polsinelli concorda, affermando che le organizzazioni devono cambiare il loro modo di pensare riguardo ai dati. “Da tempo dico ai miei clienti di non concentrarsi più sulla proprietà dei dati, ma sull’accesso e l’utilizzo dei dati”, ha affermato. “Reddit e Twitter stanno adottando controlli tecnici e richiedono pagamenti per l’accesso, il che li mette in una posizione leggermente migliore rispetto ad altre società”.
Sebbene il web scraping dei dati sia stato precedentemente criticato per problemi di privacy in altri contesti, come la pubblicità digitale, Gardner sostiene che l’utilizzo dei dati personali nei modelli di intelligenza artificiale presenta sfide uniche per la privacy rispetto alla raccolta e all’uso generale dei dati personali da parte delle aziende.
Uno dei problemi è la mancanza di trasparenza, secondo Gardner. È difficile sapere se e come i dati personali vengano utilizzati e quali potrebbero essere i potenziali danni derivanti da tale utilizzo, sia a livello individuale che per la società nel suo complesso. Inoltre, una volta che un modello è stato addestrato su determinati dati, potrebbe diventare impossibile “disaddestrarlo” o eliminare i dati. Questo aspetto è in contrasto con molte delle recenti normative sulla privacy che conferiscono alle persone maggiori diritti di accesso e cancellazione dei propri dati personali.
Mitchell è d’accordo e sottolinea che con i sistemi di intelligenza artificiale generativa esiste il rischio che le informazioni private vengano replicate e propagate dal sistema. Queste informazioni potrebbero essere ulteriormente amplificate e diffuse, anche da parte di soggetti malintenzionati che altrimenti non avrebbero avuto accesso o conoscenza di tali informazioni.
Quanto riguarda i modelli di IA già addestrati, come GPT-3 e GPT-4 di OpenAI, sorge la questione se saranno soggetti a controversie. Secondo Gardner, la risposta è no: “Le aziende che hanno addestrato modelli in precedenza non saranno esenti da futuri provvedimenti legali e regolamentari”.
Tuttavia, il modo in cui le aziende risponderanno a tali requisiti rigorosi è ancora incerto. Gardner ritiene che in assenza di soluzioni tecniche adeguate, alcune aziende potrebbero dover ripensare completamente i loro modelli, il che potrebbe comportare costi considerevoli. “I tribunali e i governi dovranno bilanciare i danni e i rischi pratici nel processo decisionale, considerando i costi e i benefici che questa tecnologia può offrire alla società. Stiamo assistendo a una serie di pressioni e discussioni da tutte le parti per favorire una regolamentazione informata”.
Per gli sviluppatori, gran parte della discussione sul web scraping per l’addestramento dell’IA ruota attorno alla possibilità di considerare le opere protette da copyright come “fair use” secondo la legge sul copyright degli Stati Uniti, che consente un uso limitato di materiale protetto da copyright senza richiedere un permesso preventivo. Tuttavia, Gardner sostiene che questo argomento è ancora in discussione e non garantisce alle aziende che hanno addestrato modelli, come OpenAI, di evitare potenziali problemi legali futuri.
In conclusione, il dibattito sul web scraping dei dati per l’addestramento dell’IA è in crescita. Mentre le aziende come Twitter e Reddit cercano di proteggere i propri dati e massimizzare le opportunità di monetizzazione, si prevede che ulteriori restrizioni e azioni legali siano inevitabili. Il bilanciamento tra privacy, diritti di accesso ai dati e il potenziale beneficio sociale dei modelli di intelligenza artificiale generativa rimane un’importante sfida per i tribunali, i governi e le aziende stesse.