È stato sottolineato che i set di dati utilizzati per affinare i grandi modelli linguistici (LLM) possono contenere materiale soggetto a diritti d’autore. Questi set, ricavati da informazioni online, potrebbero non rispettare le licenze di utilizzo, e se contengono dati personali, potrebbero violare le leggi sulla privacy.
Il Washington Post ha recentemente rivelato che studiosi di 11 entità, tra cui il MIT e Cohere, hanno introdotto una “piattaforma di tracciabilità dei dati” per affrontare il problema della mancanza di trasparenza nell’IA. Dopo aver analizzato oltre 1.800 set di dati da piattaforme come Hugging Face e GitHub, hanno trovato che il 70% o non aveva una licenza chiara o era mal etichettato.
Con l’emergere degli LLM, molte aziende sono interessate a personalizzare questi modelli per usi specifici, utilizzando set di dati su misura. Tuttavia, la ricerca suggerisce che il 70% di questi set potrebbe essere basato su dati ottenuti in modo inappropriato, come violazioni della privacy o diritti d’autore, o informazioni prese da aziende rivali. Molte di queste collezioni non vengono divulgate per proteggere segreti aziendali.
Se manca una chiara licenza, gli sviluppatori possono non essere consapevoli dei vincoli legali. Sarah Hooker di Cohere ha detto: “In questo modo, anche volendo fare la cosa giusta, le persone potrebbero non essere in grado”. Shane Longfree del MIT ha aggiunto che la mancanza di licenze chiare è un problema nell’apprendimento automatico moderno, dato che i set di dati possono essere mischiati e ri-etichettati, perdendo così la loro provenienza originale.
Yasin Zernite di Hugging Face ha sottolineato l’importanza dei set di dati aperti, sottolineando che, nonostante le sfide, sono essenziali per un’IA trasparente.
Curiosamente, molti dei set di dati più utilizzati provengono da aziende come OpenAI e Google. Wikipedia, Reddit e Twitter sono tra le fonti più comuni.
La nuova piattaforma di tracciabilità mira a rendere i set di dati più trasparenti e fruibili, offrendo dettagli come l’origine, le licenze, gli autori e altre informazioni. Questo strumento permetterà agli sviluppatori di navigare tra migliaia di set di dati considerando aspetti legali ed etici e darà ai ricercatori la possibilità di studiare la genealogia dei set di dati più popolari nell’IA.