AI2 annuncia l’upgrade del modello OLMo 1.7-7B per una maggiore lunghezza del contesto e per prestazioni migliorate

DiFantasy

Apr 18, 2024

Mercoledì, l’Allen Institute for AI (AI2) ha rivelato un nuovo aggiornamento per il suo modello di linguaggio aperto, chiamato OLMo 1.7-7B. Questo aggiornamento porta diverse migliorie significative al modello, incluso l’uso di un set di dati più vasto e variegato chiamato Dolma e miglioramenti nel processo di addestramento.

OLMo è stato introdotto per la prima volta a febbraio come un modello di linguaggio all’avanguardia e veramente open source. Questo modello include dati completi di pre-addestramento, codice di addestramento, pesi del modello e valutazione.

Con l’aggiornamento attuale, OLMo 1.7-7B è ora in grado di gestire un contesto più lungo, passando da 2.048 a 4.096 token, e offre prestazioni migliorate grazie a miglioramenti nell’addestramento e nell’architettura. Il nuovo set di dati Dolma 1.7 contiene 2,3 trilioni di token provenienti da una vasta gamma di fonti, inclusi diversi database web come Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg, Wikipedia e altri.

Rispetto alla versione precedente, Dolma 1.7 presenta una miscela più diversificata di fonti per affrontare una serie di compiti che richiedono conoscenze specializzate e ragionamenti complessi. Inoltre, il nuovo set di dati offre una migliore deduplicazione, rimuovendo interi documenti con alti livelli di duplicazione.

Dolma 1.7 include anche un miglioramento nel filtraggio della qualità, utilizzando un classificatore FastText per distinguere tra testo di alta e bassa qualità. OLMo 1.7 adotta un curriculum in due fasi per l’addestramento, utilizzando un sottoinsieme curato di Dolma 1.7 nella seconda fase.

Grazie a questi aggiornamenti, OLMo 1.7-7B ha dimostrato prestazioni superiori rispetto ad altri modelli come Llama 2-7B e Llama-2-13B.

Entrambi i modelli, OLMo e Dolma, sono rilasciati con licenze open source e sono disponibili su Hugging Face.

AI2 annuncia l’upgrade del modello OLMo 1.7-7B per una maggiore lunghezza del contesto e per prestazioni migliorate

DiFantasy

Di Fantasy

Articoli correlati

Moonvalley lancia Marey, un modello AI per la generazione di video 3D con controllo totale e senza problemi di copyright

La Cina costruisce un enorme data center nel deserto del Gobi con chip Nvidia vietati contro le sanzioni statunitensi

xAI si impegna a rimuovere i contenuti inappropriati di Grok dopo le critiche su pregiudizi e incitamento all’odio

You missed

Moonvalley lancia Marey, un modello AI per la generazione di video 3D con controllo totale e senza problemi di copyright

La Cina costruisce un enorme data center nel deserto del Gobi con chip Nvidia vietati contro le sanzioni statunitensi

xAI si impegna a rimuovere i contenuti inappropriati di Grok dopo le critiche su pregiudizi e incitamento all’odio

LG AI Research Institute lancia EXAONE Path 2.0, AI medica per diagnosi e cura personalizzata