Upstage, una startup leader nell’intelligenza artificiale (AI) in Corea, ha avviato l’espansione dell’ecosistema del modello linguistico su larga scala (LLM).
L’azienda ha annunciato il rilascio di “dataverse”, un meccanismo open source su GitHub che contiene know-how sul processo di pre-elaborazione dei dati.
La pre-elaborazione dei dati è un passaggio cruciale per l’apprendimento del LLM, consistente nell’allegare etichette (annotazioni) a grandi quantità di dati. Fino ad ora, questo processo era principalmente manuale e rappresentava un ostacolo per molte aziende a causa della mancanza di know-how e dei costi associati.
Upstage ha deciso di rendere gratuito il bus dati per agevolare il processo di pre-elaborazione dei dati nel campo del “testo”.
Tutto il codice sorgente necessario per il processo di pre-elaborazione può essere utilizzato liberamente su un programma compatibile come Open o Python, consentendo anche modifiche e applicazioni del codice.
Similmente alla “Open Ko-LLM Leaderboard”, che si propone di sviluppare un ecosistema per il modello linguistico coreano, l’obiettivo è creare un mercato per la gestione dei dati.
Park Chan-jun, ricercatore senior presso Upstage, ha sottolineato che l’azienda non mira alla monetizzazione e che la parola chiave principale è la coesistenza.
Anche se progetti simili sono stati realizzati da grandi aziende straniere come Hugging Face, Allen AI Research Institute e Databricks, sono rari in Corea.
Upstage ha dichiarato che questo è solo l’inizio e che hanno in programma di continuare a sviluppare la loro tecnologia e presentare una gamma più ampia di prodotti in futuro.
Il Databus è disponibile sul sito GitHub.