Upstage, con a capo il CEO Kim Seong-hoon, ha annunciato il lancio di Evalverse, una piattaforma di valutazione complessiva per modelli di lingua di grande dimensione (LLM) basata su no-code, ora disponibile su GitHub come open source. L’obiettivo di Evalverse è rendere il test delle prestazioni dei LLM accessibile a chiunque, facilitando l’avanzamento tecnologico.
Valutazione delle Prestazioni LLM Simplificata
Tradizionalmente, la valutazione delle prestazioni degli LLM si basava su benchmark che misuravano l’accuratezza delle risposte utilizzando specifici dataset. Tra questi, il benchmark H6 di Hugging Face, che valuta sei aree tra cui inferenza, conoscenza generale e comprensione linguistica, è stato uno dei più utilizzati, insieme ad altri indicatori come MT-bench per le capacità conversazionali, EQ-bench per la valutazione emotiva, e IFEval per l’abilità di seguire istruzioni.
La piattaforma di Upstage riunisce questi importanti benchmark in un unico luogo, offrendo la possibilità di eseguire più valutazioni contemporaneamente. A differenza del passato, dove era necessario inviare modelli a piattaforme specifiche per ciascun benchmark, Evalverse consente di procedere con diverse valutazioni in una volta sola.
Integrazione e Usabilità Migliorate
Un’innovazione distintiva di Evalverse è l’integrazione con Slack tramite un chatbot API, che estende la sua usabilità. Gli utenti possono avviare l’intero processo di valutazione comunicando direttamente con il chatbot, inserendo solamente due comandi nel chat per richiamare e valutare i modelli desiderati. Questa funzionalità rende il processo di valutazione e confronto tra modelli notevolmente più semplice e diretto, con report comprensivi disponibili per una facile consultazione.
Inoltre, Evalverse ha introdotto nuovi benchmark, come il ragionamento matematico (GSM8K) e il ragionamento basato sul senso comune (WinoGrade), che non erano presenti nell’Open Ko-LLM leaderboard.
Alla domanda su future applicazioni di questi nuovi indicatori nell’Open Ko-LLM leaderboard, è stato risposto che i criteri di valutazione per la leaderboard in lingua coreana saranno presto significativamente ampliati e aggiornati, con un continuo processo di revisione degli indicatori da presentare.
Impegno di Upstage per l’Avanzamento dell’IA Generativa
Upstage ha sottolineato che la pubblicazione open source di Evalverse rappresenta un impegno verso il progresso e la collaborazione nell’ecosistema dell’IA generativa. Dopo aver lanciato l’Open Ko-LLM leaderboard e condiviso il loro modello LLM “Solar” come open source per migliorare le prestazioni dei modelli in coreano, Upstage ha recentemente rivelato Dataverse, una piattaforma per la condivisione di tecniche di pre-elaborazione dei dati complessi.
Kim Seong-hoon, CEO di Upstage, ha espresso soddisfazione per la disponibilità di Evalverse, affermando: “Siamo entusiasti di offrire la piattaforma Evalverse gratuitamente, facilitando a chiunque il test dei propri modelli LLM. Upstage continuerà a impegnarsi per guidare lo sviluppo e la diffusione dell’ecosistema LLM a livello globale, mantenendosi in prima linea nel mercato dell’IA generativa.”