Mercoledì, l’Allen Institute for AI (AI2) ha rivelato un nuovo aggiornamento per il suo modello di linguaggio aperto, chiamato OLMo 1.7-7B. Questo aggiornamento porta diverse migliorie significative al modello, incluso l’uso di un set di dati più vasto e variegato chiamato Dolma e miglioramenti nel processo di addestramento.
OLMo è stato introdotto per la prima volta a febbraio come un modello di linguaggio all’avanguardia e veramente open source. Questo modello include dati completi di pre-addestramento, codice di addestramento, pesi del modello e valutazione.
Con l’aggiornamento attuale, OLMo 1.7-7B è ora in grado di gestire un contesto più lungo, passando da 2.048 a 4.096 token, e offre prestazioni migliorate grazie a miglioramenti nell’addestramento e nell’architettura. Il nuovo set di dati Dolma 1.7 contiene 2,3 trilioni di token provenienti da una vasta gamma di fonti, inclusi diversi database web come Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg, Wikipedia e altri.
Rispetto alla versione precedente, Dolma 1.7 presenta una miscela più diversificata di fonti per affrontare una serie di compiti che richiedono conoscenze specializzate e ragionamenti complessi. Inoltre, il nuovo set di dati offre una migliore deduplicazione, rimuovendo interi documenti con alti livelli di duplicazione.
Dolma 1.7 include anche un miglioramento nel filtraggio della qualità, utilizzando un classificatore FastText per distinguere tra testo di alta e bassa qualità. OLMo 1.7 adotta un curriculum in due fasi per l’addestramento, utilizzando un sottoinsieme curato di Dolma 1.7 nella seconda fase.
Grazie a questi aggiornamenti, OLMo 1.7-7B ha dimostrato prestazioni superiori rispetto ad altri modelli come Llama 2-7B e Llama-2-13B.
Entrambi i modelli, OLMo e Dolma, sono rilasciati con licenze open source e sono disponibili su Hugging Face.