Upstage Introduce Evalverse: Una Piattaforma per la Valutazione dei Modelli LLM Accessibile a Tutti

Upstage, con a capo il CEO Kim Seong-hoon, ha annunciato il lancio di Evalverse, una piattaforma di valutazione complessiva per modelli di lingua di grande dimensione (LLM) basata su no-code, ora disponibile su GitHub come open source. L’obiettivo di Evalverse è rendere il test delle prestazioni dei LLM accessibile a chiunque, facilitando l’avanzamento tecnologico.

Valutazione delle Prestazioni LLM Simplificata

Tradizionalmente, la valutazione delle prestazioni degli LLM si basava su benchmark che misuravano l’accuratezza delle risposte utilizzando specifici dataset. Tra questi, il benchmark H6 di Hugging Face, che valuta sei aree tra cui inferenza, conoscenza generale e comprensione linguistica, è stato uno dei più utilizzati, insieme ad altri indicatori come MT-bench per le capacità conversazionali, EQ-bench per la valutazione emotiva, e IFEval per l’abilità di seguire istruzioni.

La piattaforma di Upstage riunisce questi importanti benchmark in un unico luogo, offrendo la possibilità di eseguire più valutazioni contemporaneamente. A differenza del passato, dove era necessario inviare modelli a piattaforme specifiche per ciascun benchmark, Evalverse consente di procedere con diverse valutazioni in una volta sola.

Integrazione e Usabilità Migliorate

Un’innovazione distintiva di Evalverse è l’integrazione con Slack tramite un chatbot API, che estende la sua usabilità. Gli utenti possono avviare l’intero processo di valutazione comunicando direttamente con il chatbot, inserendo solamente due comandi nel chat per richiamare e valutare i modelli desiderati. Questa funzionalità rende il processo di valutazione e confronto tra modelli notevolmente più semplice e diretto, con report comprensivi disponibili per una facile consultazione.

Inoltre, Evalverse ha introdotto nuovi benchmark, come il ragionamento matematico (GSM8K) e il ragionamento basato sul senso comune (WinoGrade), che non erano presenti nell’Open Ko-LLM leaderboard.

Alla domanda su future applicazioni di questi nuovi indicatori nell’Open Ko-LLM leaderboard, è stato risposto che i criteri di valutazione per la leaderboard in lingua coreana saranno presto significativamente ampliati e aggiornati, con un continuo processo di revisione degli indicatori da presentare.

Impegno di Upstage per l’Avanzamento dell’IA Generativa

Upstage ha sottolineato che la pubblicazione open source di Evalverse rappresenta un impegno verso il progresso e la collaborazione nell’ecosistema dell’IA generativa. Dopo aver lanciato l’Open Ko-LLM leaderboard e condiviso il loro modello LLM “Solar” come open source per migliorare le prestazioni dei modelli in coreano, Upstage ha recentemente rivelato Dataverse, una piattaforma per la condivisione di tecniche di pre-elaborazione dei dati complessi.

Kim Seong-hoon, CEO di Upstage, ha espresso soddisfazione per la disponibilità di Evalverse, affermando: “Siamo entusiasti di offrire la piattaforma Evalverse gratuitamente, facilitando a chiunque il test dei propri modelli LLM. Upstage continuerà a impegnarsi per guidare lo sviluppo e la diffusione dell’ecosistema LLM a livello globale, mantenendosi in prima linea nel mercato dell’IA generativa.”

Upstage Introduce Evalverse: Una Piattaforma per la Valutazione dei Modelli LLM Accessibile a Tutti

Diihal

Di ihal

Articoli correlati

GenAI aziendale: arriva la partnership tra HCLTech e OpenAI

Logicflo riceve un finanziamento di 2,7 milioni di euro per un’AI al servizio della scienza della vita

La grande spoliazione dei talenti AI del 2025: Meta sfida OpenAI con offerte da capogiro

You missed

GenAI aziendale: arriva la partnership tra HCLTech e OpenAI

Logicflo riceve un finanziamento di 2,7 milioni di euro per un’AI al servizio della scienza della vita

Neuralink: costruire la legge di Moore per la mente umana

Cursor porta gli agenti AI di coding sul web e sul mobile