Business Insider ha riportato che Meta AI ha risposto affermando che YouTube era incluso nei dati di formazione, e Meta non ha negato questa affermazione.
Meta AI, un chatbot rilasciato da Meta lo scorso settembre, è integrato in Facebook e Instagram e opera negli Stati Uniti e in Canada. Anche se alimentato dai modelli open source di Meta “Llama 2” e “Llama 3”, non è chiaro su quali dati sia stato addestrato. Quando Llama 3 è stato lanciato, si è detto che era stato addestrato su un set di dati di 15 trilioni di token da “fonti disponibili al pubblico”.
Business Insider ha quindi chiesto a Meta AI quali dati ha appreso e come li ha ottenuti. È emerso che Meta AI è stata addestrata utilizzando milioni di video di YouTube. Meta ha confermato l’esistenza del suo bot web scraper chiamato “Meta Scraping and Extraction (MSAE)”, utilizzato per estrarre grandi quantità di dati dal web per addestrare modelli di intelligenza artificiale.
Ulteriori domande hanno portato alla luce che i dati di formazione includessero un “set di dati di terze parti” composto da 3,7 milioni di video di YouTube e altri dati di trascrizione provenienti da 6 milioni di video di YouTube modificati da terzi.
Sebbene il chatbot abbia affermato che Meta sta adottando misure per evitare la raccolta di dati protetti da copyright, questa informazione non era stata precedentemente resa pubblica e, se confermata, sarebbe un segreto interno.
Durante il processo di verifica dei fatti, Meta non ha negato la risposta del chatbot. Tuttavia, ha chiarito che, come tutti i sistemi di IA generativa, Meta AI potrebbe produrre risultati imprecisi o inappropriati.