Un gruppo di creatori di contenuti su YouTube ha avviato una causa collettiva contro OpenAI, accusando l’azienda di aver utilizzato senza autorizzazione le trascrizioni dei loro video per addestrare i suoi modelli di intelligenza artificiale, come “ChatGPT”.
Secondo quanto riportato da TechCrunch il 5 agosto, David Millett e altri creatori hanno citato in giudizio OpenAI, chiedendo un risarcimento di oltre 5 milioni di dollari (circa 7,5 miliardi di won). La causa riguarda l’uso non autorizzato delle trascrizioni video per il training dell’IA.
Molti modelli di intelligenza artificiale sono addestrati utilizzando dati raccolti da siti web pubblici. Le aziende di IA sostengono che l’uso di dati disponibili online rientra nel “fair use” previsto dalla legge sul copyright. Tuttavia, non tutti i titolari dei diritti d’autore sono d’accordo con questa interpretazione.
Con la crescente carenza di fonti di dati, le trascrizioni video sono diventate una risorsa preziosa per l’addestramento delle IA. Il New York Times ha riportato ad aprile che OpenAI ha utilizzato trascrizioni di video di YouTube senza permesso, specialmente quando i dati di apprendimento precedenti stavano per esaurirsi nel 2021 durante lo sviluppo di “GPT-4”.
OpenAI ha anche creato un programma di riconoscimento vocale chiamato “Whisper” per analizzare il parlato nei video e utilizzarlo per addestrare GPT-4. È stato riportato che GPT-4 ha analizzato oltre un milione di ore di contenuti di YouTube senza autorizzazione. Alcuni dipendenti di OpenAI erano consapevoli che questa pratica potesse essere illegale, ma ritenevano fosse necessaria per l’apprendimento dell’IA.
Recentemente, Proof News ha scoperto che diverse aziende, tra cui Antropic, Apple, Salesforce e Nvidia, hanno utilizzato “The Pile”, un set di dati contenente sottotitoli di video di YouTube, per addestrare modelli di IA. Molti creatori di YouTube non erano a conoscenza di questo uso e non lo hanno approvato. Apple ha poi dichiarato di non voler utilizzare tali modelli per le sue funzionalità di IA.
Anche Google, l’operatore di YouTube, ha utilizzato video della piattaforma per addestrare modelli di IA. L’anno scorso, Google ha aggiornato i suoi termini di servizio per permettere l’uso più ampio dei dati degli utenti per l’addestramento dell’IA, allentando le restrizioni sui dati di YouTube.