Enormi set di dati di allenamento per l’intelligenza artificiale, o corpora, sono stati descritti come “la spina dorsale di modelli linguistici avanzati”. EleutherAI, l’organizzazione dietro uno dei più grandi set di dati al mondo, Pile – un corpus open source di testi diversificati da 825 GB – è diventata oggetto di controversie nel 2023 a causa di preoccupazioni legali ed etiche riguardanti i dati utilizzati per formare i più popolari LLM come GPT-4 di OpenAI e Llama di Meta.
Nata nel 2020 come un collettivo Discord per esplorare GPT-3 di OpenAI, EleutherAI è stata citata in giudizio l’anno scorso per il suo uso di Books3, un set di dati controverso con oltre 180.000 opere, parte del progetto Pile (Books3, caricato inizialmente nel 2020 da Shawn Presser, è stato rimosso da Internet nell’agosto 2023).
EleutherAI sta ora sviluppando una versione aggiornata di Pile in collaborazione con università e istituti di ricerca, inclusi l’Università di Toronto e l’Allen Institute for AI. Stella Biderman di Booz Allen Hamilton, direttrice esecutiva di EleutherAI, e Aviya Skowron, responsabile politiche ed etica, hanno rivelato che la nuova versione di Pile sarà pronta a breve, offrendo un set di dati ancora più ampio e migliorato.
Il Pile v2 includerà dati più recenti e una preelaborazione ottimizzata. Biderman sottolinea che l’obiettivo era fornire al modello una conoscenza ampia e significativa, selezionando oltre il 75% dei dati da specifici argomenti o domini.
Skowron e Biderman hanno affrontato le questioni legali, sostenendo che la formazione dei modelli è un uso legittimo dei dati protetti da copyright. Il nuovo Pile includerà dati di pubblico dominio, testi sotto Creative Commons, codice open source e altri dati con licenze permissive.
Il dibattito sull’impatto dei set di dati di allenamento AI è complesso. Ad esempio, il LAION-5B, un grande set di dati di immagini, è stato recentemente rimosso a causa della presenza di immagini inappropriate. Biderman e Skowron riconoscono la discrepanza tra gli sforzi per combattere questi contenuti e le risorse necessarie per esaminare preventivamente i set di dati.
EleutherAI sostiene che i set di dati aperti, come Pile, sono più sicuri perché offrono maggiore visibilità, facilitando l’uso etico e sicuro dei modelli AI risultanti. Il lavoro sulla versione aggiornata di Pile continua, con Biderman ottimista sulla differenza che apporterà.