Zyphra Technologies ha recentemente lanciato Zyda-2, un set di dati di pre-addestramento aperto composto da 5 trilioni di token. Questo nuovo set è cinque volte più grande del suo predecessore e copre una vasta gamma di argomenti. Ciò che lo distingue è la sua composizione unica: Zyda-2 è stato sviluppato per mantenere i punti di forza dei set di dati esistenti, eliminando al contempo le loro debolezze.
Grazie a questa innovazione, le aziende possono addestrare modelli linguistici con alta accuratezza, anche quando operano su dispositivi edge e consumer, mantenendo un budget di parametri limitato. Zyphra ha già testato il suo modello linguistico Zamba2 con Zyda-2, riscontrando prestazioni notevolmente superiori rispetto a modelli precedentemente addestrati con altri set di dati open source.
Questa iniziativa arriva pochi mesi dopo la pubblicazione del set di dati originale Zyda, che mirava a garantire diversità e qualità per l’addestramento di modelli linguistici competitivi.
Nel tentativo di costruire piccoli modelli estremamente potenti per automatizzare attività a basso costo, Zyphra ha sviluppato Zyda-2 combinando set di dati di alta qualità con licenze permissive. La prima versione, Zyda, con 1,3 trilioni di token, era già un mashup di set di dati open source di alta qualità come RefinedWeb e arxiv.
Tuttavia, 1,3 trilioni di token non erano sufficienti per spingere le prestazioni oltre il limite, quindi Zyphra ha creato una nuova pipeline di elaborazione dati per sviluppare Zyda-2. Utilizzando NeMo Curator di Nvidia, una libreria di gestione dei dati accelerata dalla GPU, l’azienda è riuscita a ridurre i costi e a velocizzare l’elaborazione, passando da tre settimane a soli due giorni.
Zyphra ha eseguito una deduplicazione tra tutti i set di dati e un filtraggio della qualità, mantenendo solo i dati di alta qualità. Questo processo ha portato alla creazione di Zyda-2, un set di dati migliorato che combina i migliori elementi di diversi set di dati esistenti, fornendo una maggiore diversità e prestazioni migliori nei compiti linguistici.
Un recente studio ha dimostrato che addestrare il modello Zamba2-2.7B utilizzando Zyda-2 ha portato a punteggi di valutazione superiori nei principali benchmark, come MMLU e Arc-Easy. Ciò indica che la qualità del modello migliora quando si utilizza il set di dati distillato, piuttosto che singoli set di dati aperti.
Zyda-2 può colmare le lacune di ciascun set di dati componente, riducendo il budget di addestramento necessario per raggiungere un certo livello di qualità. Zyphra spera che questo lavoro apra la strada a modelli di piccole dimensioni di migliore qualità, consentendo alle aziende di massimizzare efficienza e prestazioni, sia per le applicazioni su dispositivo che su cloud.
Le aziende possono già scaricare Zyda-2 direttamente da Hugging Face. È disponibile con licenza ODC-By, che permette agli utenti di utilizzarlo per addestrare o costruire modelli, a seconda degli accordi di licenza delle fonti di dati originali.