A maggio, IBM ha rilasciato il modello Granite 13B, ideale per i casi d’uso aziendali. Recentemente, Armand Ruiz, VP del prodotto per la piattaforma AI di IBM, ha annunciato che il set di dati completo utilizzato per addestrare Granite 13B è di 6,48 TB.

Questo set di dati è stato ridotto a 2,07 TB dopo una rigorosa pre-elaborazione, ottenendo una riduzione del 68%. Questo processo è stato fondamentale per assicurare un set di dati di alta qualità, imparziale, etico e legale, adatto ai casi d’uso aziendali.

Il set di dati comprende:

  • Oltre 2,4 milioni di articoli scientifici pre-pubblicati.
  • Archivi di scansioni web aperti.
  • Coppie di domande e risposte matematiche.
  • Pareri legali di dominio pubblico dai tribunali statunitensi.
  • Dati di codice da CodeParrot.
  • Notizie di informatica e imprenditorialità dal 2007 al 2018.
  • Corpus Web Text open source di OpenAI.
  • E-book gratuiti, con particolare attenzione alle opere più vecchie.
  • Articoli biomedici e di scienze della vita.
  • Depositi 10-K/Q della SEC degli Stati Uniti (1934-2022).
  • Contenuti dalla rete di Stack Exchange.
  • Brevetti statunitensi concessi dal 1975 a maggio 2023.
  • Contenuti web non strutturati convertiti in dati leggibili da macchina.
  • Otto progetti Wikimedia in inglese.

La pipeline di pre-elaborazione ha incluso estrazione del testo, deduplicazione, identificazione del linguaggio, divisione delle frasi, annotazione di odio, abuso e profanità, annotazione della qualità dei documenti e altro, garantendo un set di dati finale di altissima qualità per l’addestramento del modello.

IBM ha rilasciato quattro varianti del modello di codice Granite, con parametri che vanno da 3 a 34 miliardi. Questi modelli hanno superato altri modelli comparabili come Code Llama e Llama 3 in molti compiti.

Di Fantasy