Meta AI: YouTube nei dati di addestramento?

DiFantasy

Giu 5, 2024

Business Insider ha riportato che Meta AI ha risposto affermando che YouTube era incluso nei dati di formazione, e Meta non ha negato questa affermazione.

Meta AI, un chatbot rilasciato da Meta lo scorso settembre, è integrato in Facebook e Instagram e opera negli Stati Uniti e in Canada. Anche se alimentato dai modelli open source di Meta “Llama 2” e “Llama 3”, non è chiaro su quali dati sia stato addestrato. Quando Llama 3 è stato lanciato, si è detto che era stato addestrato su un set di dati di 15 trilioni di token da “fonti disponibili al pubblico”.

Business Insider ha quindi chiesto a Meta AI quali dati ha appreso e come li ha ottenuti. È emerso che Meta AI è stata addestrata utilizzando milioni di video di YouTube. Meta ha confermato l’esistenza del suo bot web scraper chiamato “Meta Scraping and Extraction (MSAE)”, utilizzato per estrarre grandi quantità di dati dal web per addestrare modelli di intelligenza artificiale.

Ulteriori domande hanno portato alla luce che i dati di formazione includessero un “set di dati di terze parti” composto da 3,7 milioni di video di YouTube e altri dati di trascrizione provenienti da 6 milioni di video di YouTube modificati da terzi.

Sebbene il chatbot abbia affermato che Meta sta adottando misure per evitare la raccolta di dati protetti da copyright, questa informazione non era stata precedentemente resa pubblica e, se confermata, sarebbe un segreto interno.

Durante il processo di verifica dei fatti, Meta non ha negato la risposta del chatbot. Tuttavia, ha chiarito che, come tutti i sistemi di IA generativa, Meta AI potrebbe produrre risultati imprecisi o inappropriati.

Meta AI: YouTube nei dati di addestramento?

DiFantasy

Di Fantasy

Articoli correlati

ChatGPT Work porta GPT-5.6 nei workflow aziendali complessi

Anthropic introduce Reflect per analizzare il modo in cui gli utenti usano Claude

Meta lancia Muse Spark 1.1 per agenti AI, coding e workflow multimodali

Ultimi Post

ChatGPT Work porta GPT-5.6 nei workflow aziendali complessi

Anthropic introduce Reflect per analizzare il modo in cui gli utenti usano Claude

Meta lancia Muse Spark 1.1 per agenti AI, coding e workflow multimodali

TabFM di Google porta i foundation model nel machine learning tabellare