Il set di dati da 6,48 TB che alimenta Granite 13B di IBM

DiFantasy

Lug 4, 2024

A maggio, IBM ha rilasciato il modello Granite 13B, ideale per i casi d’uso aziendali. Recentemente, Armand Ruiz, VP del prodotto per la piattaforma AI di IBM, ha annunciato che il set di dati completo utilizzato per addestrare Granite 13B è di 6,48 TB.

Questo set di dati è stato ridotto a 2,07 TB dopo una rigorosa pre-elaborazione, ottenendo una riduzione del 68%. Questo processo è stato fondamentale per assicurare un set di dati di alta qualità, imparziale, etico e legale, adatto ai casi d’uso aziendali.

Il set di dati comprende:

Oltre 2,4 milioni di articoli scientifici pre-pubblicati.
Archivi di scansioni web aperti.
Coppie di domande e risposte matematiche.
Pareri legali di dominio pubblico dai tribunali statunitensi.
Dati di codice da CodeParrot.
Notizie di informatica e imprenditorialità dal 2007 al 2018.
Corpus Web Text open source di OpenAI.
E-book gratuiti, con particolare attenzione alle opere più vecchie.
Articoli biomedici e di scienze della vita.
Depositi 10-K/Q della SEC degli Stati Uniti (1934-2022).
Contenuti dalla rete di Stack Exchange.
Brevetti statunitensi concessi dal 1975 a maggio 2023.
Contenuti web non strutturati convertiti in dati leggibili da macchina.
Otto progetti Wikimedia in inglese.

La pipeline di pre-elaborazione ha incluso estrazione del testo, deduplicazione, identificazione del linguaggio, divisione delle frasi, annotazione di odio, abuso e profanità, annotazione della qualità dei documenti e altro, garantendo un set di dati finale di altissima qualità per l’addestramento del modello.

IBM ha rilasciato quattro varianti del modello di codice Granite, con parametri che vanno da 3 a 34 miliardi. Questi modelli hanno superato altri modelli comparabili come Code Llama e Llama 3 in molti compiti.

Il set di dati da 6,48 TB che alimenta Granite 13B di IBM

DiFantasy

Di Fantasy

Articoli correlati

Intelligenza Artificiale all’82ª Mostra Internazionale di Venezia tra Cinema, Musica e Innovazione

Italia penultima nella comprensione dell’Intelligenza Artificiale a livello globale

SCM AI: Intelligenza, Modularità e Orchestrazione

You missed

Intelligenza Artificiale all’82ª Mostra Internazionale di Venezia tra Cinema, Musica e Innovazione

Italia penultima nella comprensione dell’Intelligenza Artificiale a livello globale

SCM AI: Intelligenza, Modularità e Orchestrazione

Malattia di Lyme: come riconoscerla grazie all’Intelligenza Artificiale