Sierra, la startup AI per l’esperienza del cliente co-fondata da Bret Taylor di OpenAI e Clay Bavor di Google, ha introdotto un nuovo standard, chiamato TAU-bench, per valutare gli agenti di intelligenza artificiale conversazionale. Questi agenti sono testati su capacità di completare compiti complessi interagendo con utenti simulati LLM per raccogliere informazioni richieste. I risultati preliminari mostrano che gli agenti AI con strutture semplici come le chiamate di funzioni o ReAct hanno difficoltà con “attività relativamente semplici”. Questo sottolinea la necessità di architetture più sofisticate per le aziende.
Karthik Narasimhan, responsabile della ricerca di Sierra, sottolinea l’importanza di misurare le prestazioni e l’affidabilità degli agenti AI prima dell’implementazione. Attualmente, i benchmark esistenti come WebArena, SWE-bench e Agentbench non coprono completamente questi aspetti cruciali, concentrandosi principalmente su statistiche di alto livello anziché su affidabilità e adattabilità.
Per affrontare queste lacune, TAU-bench si concentra su tre requisiti principali: interazione realistica e continua con umani e API, capacità di seguire regole complesse specifiche dell’attività e coerenza su larga scala.
TAU-bench impone agli agenti diversi compiti realistici che valutano il loro ragionamento, la conservazione delle informazioni e la capacità di comunicare in contesti complessi. Questo benchmark si distingue per il suo dialogo realistico e l’uso di modelli generativi, la diversità dei compiti e una valutazione oggettiva dei risultati finali.
I test di Sierra hanno rivelato che tutti gli agenti AI testati, inclusi i più avanzati, hanno mostrato difficoltà significative nel completare i compiti assegnati, evidenziando la necessità di LLM più avanzati e di parametri di valutazione più dettagliati.