Vorremmo presentarvi una riflessione su alcune questioni attuali legate all’uso dei dati da parte di Google e OpenAI per migliorare i loro sistemi di intelligenza artificiale, come Bard e ChatGPT. Di recente, è emerso un interessante rapporto da parte di The Guardian, il quale afferma che Google sta promuovendo una modifica alle leggi sul copyright per consentire ai sistemi generativi di intelligenza artificiale di estrarre informazioni dalla rete.
Google sta spingendo i legislatori australiani a considerare “sistemi di copyright che consentano un utilizzo equo e adeguato di contenuti protetti da copyright, permettendo la formazione di modelli di intelligenza artificiale in Australia attraverso una vasta e diversificata gamma di dati.” Inoltre, Google offre un’opzione per i soggetti che preferiscono non far utilizzare i propri dati per l’addestramento di IA.
Dall’altra parte, nel contesto dei dibattiti in corso riguardo allo “scraping” (raschiamento) di dati online senza consenso, OpenAI ha lanciato GPTBot, un programma automatico per raccogliere dati pubblicamente accessibili e usarli per addestrare modelli di intelligenza artificiale. OpenAI assicura che questo processo sarà gestito in modo trasparente e responsabile.
Con l’aumentare della popolarità dell’IA generativa, la richiesta di dati cresce costantemente. Sia ChatGPT, basato sul modello linguistico LLM, che Google Bard, dipendono da una vasta quantità di testi, immagini e video per funzionare correttamente.
OpenAI afferma che GPT-4 viene allenato su una varietà di fonti dati approvate, organizzate e accessibili al pubblico, che potrebbero includere anche informazioni liberamente accessibili. Recentemente, OpenAI ha persino registrato il marchio GPT-5, il cui successo dipenderà dalla qualità dei dati utilizzati durante l’addestramento, oltre alla potenza di calcolo delle GPU.
Tuttavia, c’è ancora incertezza riguardo all’accessibilità dei dati da parte di OpenAI e Google, a causa delle controversie riguardo alle loro pratiche di estrazione dati online, che hanno suscitato una notevole opposizione pubblica.
Per migliorare l’IA basata su LLM come ChatGPT, è essenziale disporre di contenuti generati dagli utenti. Tuttavia, sorge la questione di decidere se le aziende debbano pagare per ottenere tali contenuti o se dovrebbero semplicemente attingere liberamente dalla rete. Nel panorama attuale, è plausibile che i contenuti umani possano diventare premium in futuro.
OpenAI non si basa esclusivamente su contenuti umani per addestrare GPT-4; ha iniziato ad utilizzare anche set di dati prodotti da ChatGPT. Tuttavia, questa pratica potrebbe avere limiti, poiché l’uso eccessivo di dati generati da modelli può portare alla perdita di precisione nella rappresentazione dei dati reali.
Molti utenti possono notare facilmente che ChatGPT ha una buona padronanza della poesia, ma è stato addestrato su opere di poesia di alto livello senza il consenso degli autori.
Recentemente, migliaia di autori, tra cui nomi noti come Margaret Atwood, Viet Thanh Nguyen e Philip Pullman, hanno firmato una petizione chiedendo alle aziende di intelligenza artificiale di smettere di utilizzare il lavoro degli scrittori senza autorizzazione o riconoscimento. Sottolineano che il duro lavoro dietro qualsiasi forma d’arte merita rispetto e riconoscimento.
Tuttavia, quando si tratta dei diritti d’autore per opere generate dall’IA, emergono questioni di proprietà. Sebbene il Copyright Act assegni solitamente la proprietà iniziale ai creatori, la mancanza di decisioni giuridiche sulle creazioni dell’IA rende incerto chi siano i veri creatori.
Attualmente, sia Google che OpenAI si stanno cautelativamente svincolando dalla responsabilità di condividere dati e hanno affidato agli editori la decisione di permettere l’uso dei loro contenuti da parte dell’IA. Google suggerisce che gli editori possano rinunciare all’uso dei loro contenuti da parte dell’IA. Questo approccio potrebbe portare alla creazione di uno standard simile al sistema “robots.txt” che permette agli editori di escludere parti specifiche dei loro siti dallo scraping.
Analogamente, OpenAI ha indicato che i proprietari di siti Web possono impedire a GPTBot di accedere ai loro siti aggiungendolo al file “robot.txt”. Questo solleva la questione di quanto sia giusto spingere gli utenti a rinunciare o a fare attivamente azioni per impedire l’accesso, anziché consentire l’uso dei loro contenuti per l’addestramento.
Una domanda cruciale è se questo approccio sia etico. È complesso chiedere agli utenti di rinunciare, considerando le preoccupazioni sulla privacy. OpenAI ha collaborato con Associated Press per ottenere dati in tempo reale da utilizzare nei suoi modelli, dimostrando uno sforzo per evitare potenziali contenziosi legali.
Nel complesso, l’interazione tra le aziende tecnologiche e i dati disponibili solleva questioni fondamentali sulla privacy, il diritto d’autore e l’uso responsabile dell’IA. Per coloro che dipendono da servizi come ChatGPT o Bard, c’è una decisione da prendere tra l’utilizzo di tali servizi e la preoccupazione per la propria privacy.