Immagine AI

Navigare sul web, acquistare prodotti o prenotare servizi sono attività quotidiane per gli esseri umani, ma rappresentano sfide complesse per l’intelligenza artificiale (IA). Queste operazioni richiedono decisioni articolate e azioni ripetitive, spesso in ambienti dinamici e con informazioni multimodali. Per affrontare queste difficoltà, i ricercatori delle università Yonsei e Carnegie Mellon hanno sviluppato Web-Shepherd, un modello di ricompensa innovativo progettato per migliorare l’efficienza e l’affidabilità degli agenti IA nella navigazione web.

A differenza dei modelli tradizionali che utilizzano valutazioni generali di successo o fallimento, Web-Shepherd adotta un approccio più dettagliato. Questo modello suddivide le attività complesse in sotto-obiettivi specifici, come “cercare un prodotto” o “cliccare sulla pagina dei dettagli”, e valuta ogni passaggio singolarmente. Utilizzando una checklist strutturata, Web-Shepherd assegna ricompense in base al completamento di ciascun sotto-obiettivo, migliorando la precisione e la coerenza delle azioni dell’agente.

Per supportare questo modello, è stata creata la WebPRM Collection, un ampio dataset contenente 40.000 coppie di attività annotate e checklist dettagliate, che coprono vari domini e livelli di difficoltà. Inoltre, è stato sviluppato il benchmark WebRewardBench, il primo strumento di valutazione per i modelli di ricompensa nel contesto della navigazione web.

I risultati sperimentali hanno dimostrato che Web-Shepherd offre prestazioni superiori rispetto ai modelli precedenti. Nel benchmark WebRewardBench, ha raggiunto un punteggio medio dell’87,6%, con una precisione del percorso del 55%, mentre GPT-4o-mini ha ottenuto rispettivamente il 47,5% e lo 0%. Inoltre, utilizzando Web-Shepherd come valutatore in combinazione con GPT-4o-mini, è stato possibile ottenere un tasso di successo del 34,55% su WebArena-lite, con un miglioramento del 10,9% rispetto all’utilizzo di GPT-4o-mini come valutatore, riducendo al contempo i costi di inferenza di dieci volte.

Di Fantasy