La valutazione delle prestazioni dei modelli AI è spesso basata su benchmark generici che misurano capacità generali, ma non sempre riflettono le esigenze specifiche delle imprese. Per affrontare questa lacuna, Hugging Face ha introdotto Yourbench, uno strumento open-source che consente alle organizzazioni di creare benchmark personalizzati e testare i modelli IA utilizzando i propri dati interni.​

Le metriche standardizzate, sebbene utili per confrontare modelli su scala generale, possono non catturare le sfumature delle applicazioni aziendali specifiche. Ad esempio, un modello potrebbe eccellere in test generali ma non soddisfare le aspettative in scenari reali pertinenti a un settore particolare. Questo divario tra valutazioni generiche e prestazioni pratiche ha spinto Hugging Face a sviluppare Yourbench, offrendo alle aziende la possibilità di testare i modelli in base alle proprie esigenze concrete.​

Yourbench si basa su un processo strutturato che include:​

  • Ingestione dei documenti: I file vengono normalizzati per garantire coerenza nel formato.​
  • Suddivisione semantica: I documenti vengono segmentati in parti più piccole, ottimizzando l’attenzione del modello.​
  • Sommario dei documenti: Viene creato un riassunto che cattura le informazioni chiave.​
  • Generazione di domande e risposte: Vengono formulate domande basate sul contenuto, testando la capacità del modello di fornire risposte accurate.​

Questo approccio consente alle aziende di simulare scenari reali, valutando l’efficacia dei modelli in compiti specifici e pertinenti.​

Nelle valutazioni effettuate con modelli come DeepSeek V3 e R1, Qwen di Alibaba e Mistral, Yourbench ha dimostrato la capacità di replicare benchmark complessi con costi di inferenza ridotti, mantenendo l’accuratezza nelle classifiche di prestazione. Inoltre, l’analisi dei costi ha rivelato che modelli come Qwen e Gemini 2.0 Flash offrono un valore significativo a costi contenuti.

Di Fantasy