Gli esperti del MIT, insieme a Cohere for AI e altri undici enti, hanno presentato oggi una nuova piattaforma dedicata all’origine dei dati, con l’obiettivo di risolvere l’attuale problema di opacità nella gestione dei dati nel campo dell’intelligenza artificiale.
Questo team ha esaminato e mappato circa 2.000 tra i più popolari dataset utilizzati per la calibrazione, accumulando decine di milioni di download e formando il fondamento di numerosi progressi in PNL, come dichiarato da Shayne Longpre, candidato Ph.D. presso il MIT Media Lab, e Sara Hooker, leader presso Cohere for AI.
Hanno commentato: “Questa vasta iniziativa rappresenta l’analisi più estensiva mai realizzata su un dataset di intelligenza artificiale. Per la prima volta, tali dataset sono accompagnati da informazioni dettagliate sulle loro fonti, licenze, autori e altre caratteristiche pertinenti”.
Per rendere tutto ciò concreto e facilmente fruibile, è stata sviluppata una piattaforma interattiva chiamata “Data Provenance Explorer”, che permette ai professionisti di monitorare e selezionare migliaia di dataset in base a criteri legali ed etici. Essa fornisce inoltre agli accademici e ai giornalisti gli strumenti per analizzare la struttura e la provenienza dei più famosi dataset AI.
Il collettivo ha rilasciato un articolo intitolato “The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI”, in cui sostengono:
“Troppo spesso, i grandi dataset utilizzati vengono considerati come blocchi unici, invece di essere visti come collezioni di diverse fonti dati. Queste fonti vengono raccolte, elaborate e annotate, subendo cicli di ri-elaborazione e ri-licenza da parte di diverse mani. La tendenza a ignorare questa complessità nasce sia dalla vastità dei processi di raccolta dati attuali, sia dalle complesse dinamiche legate ai diritti d’autore. Questi elementi hanno portato a una scarsa documentazione, a una trasparenza limitata riguardo alle fonti e, in definitiva, a una comprensione ridotta dei dataset.
L’inadeguata conoscenza può risultare in sovrapposizioni tra dati di allenamento e test, esposizioni di dati personali, bias involontari e, in generale, in modelli di qualità subottimale. Oltre alle sfide pratiche, la mancanza di chiarezza e la carenza di documentazione comportano seri rischi sia dal punto di vista etico che legale. Ad esempio, le licenze dei modelli possono contraddire le condizioni d’uso dei dati. Considerando l’alto costo dell’allenamento dei modelli e la sua irreversibilità, questi problemi non sono di facile soluzione”.