A maggio, IBM ha rilasciato il modello Granite 13B, ideale per i casi d’uso aziendali. Recentemente, Armand Ruiz, VP del prodotto per la piattaforma AI di IBM, ha annunciato che il set di dati completo utilizzato per addestrare Granite 13B è di 6,48 TB.
Questo set di dati è stato ridotto a 2,07 TB dopo una rigorosa pre-elaborazione, ottenendo una riduzione del 68%. Questo processo è stato fondamentale per assicurare un set di dati di alta qualità, imparziale, etico e legale, adatto ai casi d’uso aziendali.
Il set di dati comprende:
- Oltre 2,4 milioni di articoli scientifici pre-pubblicati.
- Archivi di scansioni web aperti.
- Coppie di domande e risposte matematiche.
- Pareri legali di dominio pubblico dai tribunali statunitensi.
- Dati di codice da CodeParrot.
- Notizie di informatica e imprenditorialità dal 2007 al 2018.
- Corpus Web Text open source di OpenAI.
- E-book gratuiti, con particolare attenzione alle opere più vecchie.
- Articoli biomedici e di scienze della vita.
- Depositi 10-K/Q della SEC degli Stati Uniti (1934-2022).
- Contenuti dalla rete di Stack Exchange.
- Brevetti statunitensi concessi dal 1975 a maggio 2023.
- Contenuti web non strutturati convertiti in dati leggibili da macchina.
- Otto progetti Wikimedia in inglese.
La pipeline di pre-elaborazione ha incluso estrazione del testo, deduplicazione, identificazione del linguaggio, divisione delle frasi, annotazione di odio, abuso e profanità, annotazione della qualità dei documenti e altro, garantendo un set di dati finale di altissima qualità per l’addestramento del modello.
IBM ha rilasciato quattro varianti del modello di codice Granite, con parametri che vanno da 3 a 34 miliardi. Questi modelli hanno superato altri modelli comparabili come Code Llama e Llama 3 in molti compiti.