Due settimane fa, Google ha apportato un aggiornamento segreto alla sua politica sulla privacy, rivelando la pratica di estrarre dati pubblici da fonti Web per migliorare i suoi servizi di intelligenza artificiale, come Bard e Cloud. Questo solleva preoccupazioni riguardo all’aumento dei pregiudizi nei futuri modelli di intelligenza artificiale addestrati su dati raccolti dal Web. D’altra parte, OpenAI sembra aver tracciato una migliore alternativa ai dati accurati per i suoi modelli.
La portavoce di Google, Christa Muldoon, ha affermato che l’azienda mantiene una politica sulla privacy trasparente per l’utilizzo dei dati pubblicamente disponibili dal Web aperto per addestrare modelli linguistici destinati a servizi come Google Translate. Recentemente, questa pratica è stata estesa anche a “nuovi servizi come Bard”. Muldoon ha sottolineato che Google adotta misure estese per integrare i principi e le garanzie sulla privacy nello sviluppo delle proprie tecnologie di intelligenza artificiale, in linea con i propri principi stabiliti.
Tuttavia, contrariamente a quanto dichiarato, la revisione della politica relativa alle “fonti pubblicamente accessibili” non è facilmente visibile, ma è piuttosto sepolta sotto un collegamento all’interno della scheda “Le tue informazioni locali” dell’informativa sulla privacy. Per accedere a questa sezione, è necessario cliccare su tale link.
È noto che Google raccoglie dati da molte fonti, e questo non è un segreto. L’azienda elabora oltre 20 petabyte di dati al giorno, ma ci sono state scaramucce legali riguardo al suo operato. Il più grande editore di giornali negli Stati Uniti ha citato in giudizio Google, sostenendo che i progressi nell’intelligenza artificiale abbiano aiutato il gigante della ricerca a monopolizzare il mercato della pubblicità digitale. Inoltre, la versione beta della ricerca AI di Google è stata etichettata come “motore di plagio” e l’azienda è stata accusata di monopolizzare il traffico del sito web, lasciando gli altri a lottare per attirare l’attenzione.
Mentre la modifica della politica sulla privacy consentirà a Google di raccogliere una quantità sempre maggiore di dati sulle sue piattaforme, aumenterà il rischio di utilizzare set di dati non filtrati e pieni di spam per addestrare i futuri modelli di intelligenza artificiale. OpenAI sembra essere un passo avanti nella raccolta di dati puliti, come dimostrato dalle recenti partnership con organizzazioni come Associated Press (AP), una delle più grandi agenzie di stampa negli Stati Uniti, Shutterstock e Boston Consulting Group.
La partnership con AP mira a sviluppare l’intelligenza artificiale per supportare le notizie locali e, nel processo, OpenAI si collegherà indirettamente a 41 agenzie di stampa supportate da AJP. La partnership di sei anni con Shutterstock, l’azienda gestita da Altman, utilizzerà immagini, video e musica dei creatori di contenuti per addestrare il loro ampio modello di linguaggio.
Gli sforzi recenti per collaborare con agenzie di media, fornitori di contenuti audiovisivi e società di consulenza esperte mostrano l’approccio di OpenAI nell’ottenere informazioni di prima mano pulite per i suoi set di dati. In questo aspetto, Google potrebbe imparare da OpenAI l’arte della raccolta dei dati.
Tuttavia, OpenAI è stata estremamente cauta riguardo alla fonte dei dati utilizzati per addestrare GPT-4, il motore di ChatGPT preferito da Internet. Ci sono state domande al riguardo, ma il problema del furto di dati si trova in un’area grigia dal punto di vista legale. Non è stata ancora proposta alcuna soluzione concreta, anche se diversi paesi in tutto il mondo hanno adottato misure per introdurre normative più rigorose sull’IA.
Newsguard, un sito di monitoraggio delle informazioni, ha identificato 50 siti web come “quasi interamente scritti da software di intelligenza artificiale”. Secondo un recente rapporto di Europol, “gli esperti stimano che entro il 2026 fino al 90% dei contenuti online potrebbe essere generato sinteticamente”, riferendosi alla massa di spazzatura prodotta dall’intelligenza artificiale su Internet e ai modelli addestrati su di essa.
“Non credere a tutto ciò che vedi su Internet” è un consiglio che viene dato da tempo. È ora che le grandi aziende tecnologiche, come Google, prendano sul serio la gestione dei propri dati, poiché ignorare il problema potrebbe portare a un collasso digitale.”