ByteDance Seed presenta EdgeBench per misurare l’apprendimento degli agenti AI nel tempo

ByteDance Seed ha presentato EdgeBench, un benchmark progettato per valutare non soltanto la capacità iniziale di un agente AI di affrontare un compito, ma il modo in cui riesce a migliorare mentre interagisce a lungo con un ambiente operativo reale. L’obiettivo è misurare l’apprendimento che avviene durante l’esecuzione, attraverso tentativi, verifiche, errori, feedback e aggiornamenti progressivi della strategia.

Il benchmark raccoglie 134 task eseguibili in sei categorie: ricerca scientifica e machine learning, sistemi e software engineering, ottimizzazione, lavoro basato sulla conoscenza, matematica formale e giochi. Una prima parte di 51 task, insieme al framework di valutazione, è stata resa disponibile pubblicamente. Ogni attività è costruita per sostenere sessioni di lavoro dell’agente comprese tra 12 e 72 ore, una durata molto diversa da quella dei benchmark tradizionali basati su una richiesta isolata e una risposta finale.

In EdgeBench l’agente non riceve soltanto un obiettivo astratto. Opera all’interno di ambienti nei quali può osservare risultati, log di sistema, punteggi intermedi, esiti di test, stati di gioco o altri segnali verificabili. Questi feedback diventano parte del ciclo di ragionamento: il modello deve interpretarli, capire se la strada scelta sta producendo risultati, correggere gli errori e decidere se proseguire oppure modificare il piano.

Il team ByteDance Seed ha analizzato circa 38.000 ore di esecuzioni agentiche per osservare come cambia la prestazione all’aumentare del tempo di interazione con l’ambiente. Dai risultati emerge una curva di apprendimento descritta come log-sigmoide: all’inizio, più tempo permette all’agente di ottenere miglioramenti rilevanti; in seguito, la crescita rallenta gradualmente quando vengono esaurite le opportunità più accessibili o il compito entra in una fase più difficile.

Questo risultato è rilevante perché suggerisce che il tempo di inferenza non sia soltanto una risorsa da usare per generare risposte più lunghe o ragionamenti più articolati. In un agente capace di usare strumenti e ricevere feedback, il tempo diventa un budget operativo per sperimentare, acquisire informazioni dall’ambiente e costruire una soluzione attraverso una sequenza di decisioni collegate.

Per ByteDance Seed, la capacità di apprendere durante l’interazione è un requisito fondamentale per portare gli agenti AI in contesti reali. I dati necessari per completare un’attività possono infatti essere privati, non presenti nel training del modello o prodotti soltanto durante l’esecuzione di un processo. In questi casi non basta partire da una conoscenza pre-addestrata: l’agente deve saper leggere ciò che accade, usare gli errori come segnali e adattare il proprio comportamento fino a raggiungere un risultato verificabile.

ByteDance Seed presenta EdgeBench per misurare l’apprendimento degli agenti AI nel tempo

DiFantasy

Di Fantasy

Articoli correlati

Anthropic lancia Claude Opus 5 per ridurre il costo dei carichi di lavoro AI complessi

Un’interruzione globale colpisce ChatGPT, le API OpenAI e Codex

Google estende Gemini Spark agli abbonati AI Pro negli Stati Uniti

Ultimi Post

Anthropic lancia Claude Opus 5 per ridurre il costo dei carichi di lavoro AI complessi

Un’interruzione globale colpisce ChatGPT, le API OpenAI e Codex

Google estende Gemini Spark agli abbonati AI Pro negli Stati Uniti

Kimi K3 resta indietro nei test di attacco informatico autonomo