L’Allen AI Lab (AI2) ha introdotto un nuovo e vasto insieme di dati testuali che è ora disponibile gratuitamente per l’utilizzo e l’analisi. Questo passo è considerato un’opportunità significativa per aumentare la trasparenza nella formazione dei modelli linguistici di grandi dimensioni (LLM), poiché consente l’addestramento su un set di dati open source anziché su un set di dati chiuso, la cui origine e autenticità possono essere opache.
Secondo quanto riportato da TechCrunch il 19 (ora locale), l’Istituto di Ricerca Allen AI ha messo a disposizione il set di dati testuali denominato “Dolma” come risorsa open source.
Dolma rappresenta il set di dati di apprendimento per “OLMo”, un LLM open source sviluppato dall’AI2. Questo set di dati include i documenti di “peS2o”, una collezione di 38 milioni di manoscritti scientifici autorizzati, e vanta la considerevole cifra di 3 trilioni di token provenienti da una varietà di fonti in lingua inglese, tra cui contenuti web come Wikipedia, pubblicazioni accademiche, libri ed enciclopedie.
Con una vastità senza precedenti, Dolma emerge come uno dei set di dati più ampi mai creati. Da notare che in precedenza il set di dati da 200 milioni di token di “Rama 2”, annunciato da Meta a giugno, era stato riconosciuto come il più esteso.
AI2 ha sottolineato che, sebbene Dolma sia notevolmente più grande rispetto ad altri set di dati, è più user-friendly dal punto di vista dell’utilizzo e delle autorizzazioni. Per garantire un utilizzo responsabile, gli utenti sono tenuti a ottenere una licenza che richiede informazioni di contatto e la comunicazione dell’uso previsto.
Tutte le opere derivate basate su Dolma devono essere condivise sotto la stessa licenza. Inoltre, la licenza vieta l’uso di Dolma in contesti come sorveglianza e diffusione di disinformazione.
AI2 ha riconosciuto le preoccupazioni riguardo all’inclusione di dati personali nei set di dati addestrativi per l’IA e ha fornito un modulo per richiedere la rimozione delle informazioni personali da Dolma.
In contrasto con la tendenza di alcune aziende, come OpenAI e Google, che limitano le informazioni associate ai propri set di dati, AI2 ha enfatizzato l’importanza di condividere le informazioni pubblicamente.
Un’osservazione di TechCrunch indica che il set di dati include copie piratate di alcuni libri e sottolinea che “una delle ragioni per cui alcune aziende adottano un approccio chiuso è la preoccupazione che i dati utilizzati potrebbero non essere stati ottenuti in modo etico o legale”.
AI2, al contrario, si pone l’obiettivo di affrontare queste questioni e stabilire nuovi standard per l’uso etico e legale dei dati.
Il set di dati Dolma è accessibile attraverso la piattaforma Hugging Face.