Google ha recentemente dichiarato che il suo modello di intelligenza artificiale, Gemini, utilizza dati provenienti da contenuti web concordati con i fornitori di ricerca per il suo addestramento.
Questa affermazione è emersa durante un processo antitrust a Washington D.C., dove Eli Collins, vicepresidente di Google DeepMind, ha testimoniato davanti al Dipartimento di Giustizia degli Stati Uniti. In risposta a una domanda specifica, Collins ha confermato che Gemini è stato addestrato utilizzando contenuti web forniti da partner di ricerca.
Tuttavia, Google ha precisato che i fornitori di contenuti hanno la possibilità di escludere i loro dati dall’addestramento dell’IA attraverso l’uso dello standard web “robots.txt”. Ciò significa che, se un fornitore di contenuti sceglie di non partecipare, i suoi dati non vengono utilizzati per addestrare Gemini.
Il Dipartimento di Giustizia ha presentato come prova documenti interni di Google che mostrano come siano stati filtrati i dati per l’addestramento dell’IA. Ad esempio, sono stati eliminati 80 miliardi di token da un totale di 160 miliardi, e sono stati utilizzati dati di sessione raccolti durante le ricerche degli utenti su Google e i video su YouTube.
Questa situazione si inserisce in un contesto più ampio di discussione legale, in cui il Dipartimento di Giustizia sta cercando di determinare se Google stia sfruttando il suo dominio nel mercato della ricerca per trarre vantaggio nello sviluppo dell’intelligenza artificiale. Le preoccupazioni riguardano la possibilità che l’uso dei dati di ricerca possa rafforzare ulteriormente la posizione dominante di Google nel settore dell’IA.