Zyphra Technologies ha annunciato il lancio di Zyda, un enorme insieme di dati progettato per addestrare modelli linguistici. Contiene 1,3 trilioni di token ed è una combinazione filtrata e senza duplicati di diversi set di dati aperti premium, come RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so e arxiv. Secondo l’azienda, i test dimostrano che Zyda funziona meglio dei set di dati originali su cui è stato costruito. Una versione preliminare del set di dati alimenta il modello Zamba di Zyphra e sarà presto disponibile per il download su Hugging Face.
Il CEO di Zyphra, Krithik Puthalath, ha spiegato che hanno creato Zyda perché avevano bisogno di un set di dati di pre-addestramento per la loro serie di modelli Zamba. Zyda risolve il problema fornendo un set di dati di alta qualità su vasta scala, qualcosa che altrimenti richiederebbe molto tempo e risorse per creare da zero.
Per garantire la qualità, Zyphra ha combinato diversi set di dati aperti e ha dedicato tempo a pulire i token per eliminare duplicati e documenti di bassa qualità. Questo ha comportato un filtraggio sintattico e un’intensa deduplicazione tra i vari set di dati. Il più grande contribuente a Zyda è il set di dati RefinedWeb (43,6%), seguito da Slimpajama (18,7%) e StarCoder (17,8%).
Complessivamente, circa il 40% del set di dati iniziale è stato scartato, riducendo il numero di token da 2 trilioni a 1,3 trilioni. Essendo open source, gli sviluppatori possono utilizzare questo set di dati per migliorare le prestazioni dei loro modelli linguistici, riducendo i tempi di sviluppo e i costi.
Per quanto riguarda il nome “Zyda”, è una combinazione di “Zyphra Dataset”, come spiegato da Puthalath.