Il nuovo set di dati Zyda-2 di Zyphra per i piccoli LLM aziendali

Zyphra Technologies ha recentemente lanciato Zyda-2, un set di dati di pre-addestramento aperto composto da 5 trilioni di token. Questo nuovo set è cinque volte più grande del suo predecessore e copre una vasta gamma di argomenti. Ciò che lo distingue è la sua composizione unica: Zyda-2 è stato sviluppato per mantenere i punti di forza dei set di dati esistenti, eliminando al contempo le loro debolezze.

Grazie a questa innovazione, le aziende possono addestrare modelli linguistici con alta accuratezza, anche quando operano su dispositivi edge e consumer, mantenendo un budget di parametri limitato. Zyphra ha già testato il suo modello linguistico Zamba2 con Zyda-2, riscontrando prestazioni notevolmente superiori rispetto a modelli precedentemente addestrati con altri set di dati open source.

Questa iniziativa arriva pochi mesi dopo la pubblicazione del set di dati originale Zyda, che mirava a garantire diversità e qualità per l’addestramento di modelli linguistici competitivi.

Nel tentativo di costruire piccoli modelli estremamente potenti per automatizzare attività a basso costo, Zyphra ha sviluppato Zyda-2 combinando set di dati di alta qualità con licenze permissive. La prima versione, Zyda, con 1,3 trilioni di token, era già un mashup di set di dati open source di alta qualità come RefinedWeb e arxiv.

Tuttavia, 1,3 trilioni di token non erano sufficienti per spingere le prestazioni oltre il limite, quindi Zyphra ha creato una nuova pipeline di elaborazione dati per sviluppare Zyda-2. Utilizzando NeMo Curator di Nvidia, una libreria di gestione dei dati accelerata dalla GPU, l’azienda è riuscita a ridurre i costi e a velocizzare l’elaborazione, passando da tre settimane a soli due giorni.

Zyphra ha eseguito una deduplicazione tra tutti i set di dati e un filtraggio della qualità, mantenendo solo i dati di alta qualità. Questo processo ha portato alla creazione di Zyda-2, un set di dati migliorato che combina i migliori elementi di diversi set di dati esistenti, fornendo una maggiore diversità e prestazioni migliori nei compiti linguistici.

Un recente studio ha dimostrato che addestrare il modello Zamba2-2.7B utilizzando Zyda-2 ha portato a punteggi di valutazione superiori nei principali benchmark, come MMLU e Arc-Easy. Ciò indica che la qualità del modello migliora quando si utilizza il set di dati distillato, piuttosto che singoli set di dati aperti.

Zyda-2 può colmare le lacune di ciascun set di dati componente, riducendo il budget di addestramento necessario per raggiungere un certo livello di qualità. Zyphra spera che questo lavoro apra la strada a modelli di piccole dimensioni di migliore qualità, consentendo alle aziende di massimizzare efficienza e prestazioni, sia per le applicazioni su dispositivo che su cloud.

Le aziende possono già scaricare Zyda-2 direttamente da Hugging Face. È disponibile con licenza ODC-By, che permette agli utenti di utilizzarlo per addestrare o costruire modelli, a seconda degli accordi di licenza delle fonti di dati originali.

Il nuovo set di dati Zyda-2 di Zyphra per i piccoli LLM aziendali

DiFantasy

Di Fantasy

Articoli correlati

Voxtral Transcribe 2 di Mistral: trascrizione vocale on-device, costi bassi e latenza da tempo reale

Perplexity introduce l’aggiornamento Advanced Deep Research e apre al pubblico il benchmark DRACO per migliorare la ricerca con l’intelligenza artificiale

OpenAI Frontier: una piattaforma per controllare, scalare e governare gli agenti AI in azienda

Ultimi Post

Voxtral Transcribe 2 di Mistral: trascrizione vocale on-device, costi bassi e latenza da tempo reale

Perplexity introduce l’aggiornamento Advanced Deep Research e apre al pubblico il benchmark DRACO per migliorare la ricerca con l’intelligenza artificiale

OpenAI Frontier: una piattaforma per controllare, scalare e governare gli agenti AI in azienda

Kling 3.0, il nuovo partner creativo per la generazione di video AI