Secondo un recente rapporto, OpenAI ha addestrato GPT-4 utilizzando milioni di ore di trascrizione di video di YouTube utilizzando il suo modello di sintesi vocale Whisper . L’azienda ha cercato disperatamente di raccogliere quanti più dati possibile per realizzare i suoi modelli di intelligenza artificiale.
Questo report arriva subito dopo la recente intervista del CTO di OpenAI Mira Murati che stava facendo il giro del web. Nel video Murati è apparso senza parole e non è stato in grado di specificare come l’azienda abbia addestrato il suo modello di ultima generazione video Sora . L’azienda opera nel pericoloso territorio del diritto d’autore sull’intelligenza artificiale ormai da parecchio tempo.
Il problema qui è che YouTube non consente alle società di intelligenza artificiale di scaricare video e trascrizioni. Neal Mohan, CEO di YouTube, ha affermato che l’utilizzo dei suoi video per addestrare modelli di intelligenza artificiale costituisce una violazione dei termini di servizio della piattaforma. Anche se Mohan non poteva essere sicuro che OpenAI avesse effettivamente utilizzato i video. “Sarebbe una violazione”, ha aggiunto.
“Dal punto di vista di un creatore, quando caricano il loro duro lavoro sulla nostra piattaforma, hanno determinate aspettative”, ha detto Mohan in un’intervista. “Molti creatori hanno diversi tipi di contratti di licenza in termini di contenuti sulla nostra piattaforma”, ha affermato Mohan.
Nel frattempo, Mohan ha affermato che anche Google ha utilizzato parti di video di YouTube per addestrare il modello Gemini, che secondo lui rispetta la politica di utilizzo. È interessante notare che la società ha modificato il linguaggio della propria politica sulla privacy per espandere ciò che potrebbe fare con i dati, il che è piuttosto losco.
È stato stabilito più volte nel corso dell’anno che YouTube è una miniera d’oro di dati per l’addestramento di qualsiasi modello di intelligenza artificiale multimodale. Il problema qui è che non tutti possono utilizzare questi dati e allenarsi sui video di YouTube tranne Google, che ne è il proprietario.
Il Times ha riferito che OpenAI ha esaurito tutti i dati di testo utili nel 2021 e da allora ha cercato disperatamente di mettere le mani su tutti i dati possibili. Sebbene Murati abbia affermato che Sora è stato addestrato su dati disponibili al pubblico, non è possibile individuare se si trattasse di YouTube, Facebook o Instagram, o di tutti e tre insieme. Ma ora è stato confermato che almeno GPT-4 è stato addestrato sulle trascrizioni.
A proposito di Facebook e Instagram, la società madre Meta ha avuto già l’anno scorso discussioni interne sulla potenziale acquisizione della casa editrice Simon & Schuster, con l’obiettivo di ottenere contenuti di formato più lungo. Queste informazioni sono state raccolte dalle registrazioni delle riunioni interne.
Questo è simile alla collaborazione di OpenAI con diverse agenzie di stampa. Google, d’altra parte, ritiene di avere il diritto di racimolare tutte le informazioni da Internet essendo il motore di ricerca dominante. Recentemente ha collaborato con Reddit per l’accesso alla sua API dati .
Persino l’intero universo di Internet non è sufficiente per questi modelli di intelligenza artificiale affamati di dati.
Meta ha anche discusso della possibilità di aggregare contenuti protetti da copyright da varie fonti online, nonostante le potenziali ripercussioni legali. I partecipanti hanno espresso preoccupazione per il fatto che la negoziazione delle licenze con editori, artisti, musicisti e organi di stampa richiederebbe molto tempo.
Il fabbisogno di dati è così enorme che anche l’utilizzo di materiale protetto da copyright dopo aver acquisito una licenza non è sufficiente. “L’unico modo pratico per far sì che questi strumenti esistano è che possano essere addestrati su enormi quantità di dati senza dover concedere in licenza tali dati”, ha affermato Sy Damle, un avvocato che rappresenta Andreessen Horowitz.
Il CEO di OpenAI, Sam Altman, è stato piuttosto esplicito sulla necessità di dati per i modelli di intelligenza artificiale e sul fatto che la formazione utilizzerebbe tutti i dati disponibili su Internet. Alla fine, l’azienda ha trascritto video di YouTube come audiolibri e podcast per ottenere dati e informazioni di alta qualità.
Diversi dipendenti di Google sono a conoscenza del fatto che OpenAI ha utilizzato video di YouTube per addestrare i suoi modelli di intelligenza artificiale, ma non lo hanno espresso poiché anche Google stava facendo lo stesso. Sarebbe stato ipocrita da parte dell’azienda farlo. Quindi il futuro è semplice: nessuno, o tutti, utilizzerebbero i video di YouTube per addestrare modelli di intelligenza artificiale.
Cosa questo farebbe ai creatori è ancora una domanda. Altman ha detto chiaramente che vuole risarcire gli artisti e i creatori, ma anche a lui non è chiaro il processo. Per ora, si tratta solo di esercitarsi sulla miniera d’oro di dati di YouTube e poi di pagare pesanti multe (se e quando imposte).
Ma ora che i dati di YouTube su GPT-4 e Gemini sono già esauriti, ci chiediamo su cosa queste aziende addestrerebbero i loro prossimi modelli come GPT-5. Avrebbero trovato un modo – legale o illegale – e lo avrebbero scoperto in seguito.