Gli agenti di intelligenza artificiale (AI) stanno emergendo come un’interessante area di ricerca con potenziali applicazioni nel mondo reale. Questi agenti utilizzano modelli di base come i grandi modelli di linguaggio (LLM) e i modelli di visione (VLM) per comprendere istruzioni in linguaggio naturale e per perseguire obiettivi complessi in modo autonomo o semi-autonomo. Possono anche sfruttare strumenti come browser, motori di ricerca e compilatori di codice per verificare le loro azioni e ragionare sui loro obiettivi.
Tuttavia, secondo una recente analisi condotta dai ricercatori della Princeton University, gli attuali metodi di valutazione e i benchmark per gli agenti presentano diverse lacune che limitano la loro utilità nelle applicazioni del mondo reale.
I ricercatori hanno evidenziato che il processo di valutazione degli agenti presenta sfide specifiche. Ad esempio, gli agenti AI possono essere molto costosi da eseguire rispetto ai modelli di base, in quanto utilizzano modelli di linguaggio stocastici che possono produrre risultati diversi per la stessa richiesta. Alcuni agenti generano diverse risposte e utilizzano il voto o strumenti di verifica esterni per determinare la risposta migliore, il che può migliorare l’accuratezza ma aumenta il costo computazionale.
Nelle applicazioni pratiche, il controllo dei costi di esecuzione degli agenti è cruciale, poiché ogni query ha un budget limitato. Senza questo controllo, potrebbe esserci un incentivo per sviluppare agenti estremamente costosi solo per ottenere risultati migliori sui benchmark.
I ricercatori suggeriscono di valutare gli agenti considerando sia l’accuratezza che il costo di inferenza, ottimizzando così le prestazioni per entrambe le metriche. Questa ottimizzazione congiunta può aiutare a bilanciare i costi fissi e variabili dell’esecuzione di un agente AI.
Inoltre, i ricercatori hanno evidenziato che molti benchmark attuali non includono set di test trattenuti, il che permette agli agenti di utilizzare scorciatoie durante l’addestramento e di sovrastimare le loro capacità. Proprio come nel mondo reale, è importante che i benchmark riflettano accuratamente le sfide che gli agenti incontrano nell’esecuzione di compiti complessi.