Il framework Arbor supera Claude Code e Codex fino a 2,5 volte a parità di budget computazionale

Ricercatori della Renmin University of China e di Microsoft Research hanno sviluppato Arbor, un framework open source progettato per migliorare l’efficienza degli agenti AI autonomi attraverso una nuova architettura di ottimizzazione iterativa. I risultati pubblicati mostrano come il sistema sia in grado di ottenere prestazioni fino a 2,5 volte superiori rispetto a strumenti consolidati come Claude Code e Codex mantenendo invariato il budget computazionale disponibile, evidenziando come una gestione più efficace del processo di ricerca e ragionamento possa produrre benefici significativi senza richiedere modelli più grandi o maggiore potenza di calcolo.

Il progetto nasce dall’osservazione di un limite comune a gran parte degli agenti AI moderni. Quando affrontano attività complesse, questi sistemi tendono a consumare rapidamente token e risorse computazionali esplorando numerose direzioni possibili, molte delle quali si rivelano improduttive. Una volta intrapreso un percorso poco promettente, l’agente continua spesso a investire tempo e capacità di elaborazione in attività che producono benefici limitati, riducendo l’efficienza complessiva dell’esecuzione.

Per affrontare questo problema, Arbor introduce un meccanismo denominato Hypothesis Tree Refinement (HTR), una struttura che organizza il processo decisionale dell’agente come un albero dinamico di ipotesi. Ogni nodo rappresenta una possibile strategia, una soluzione candidata oppure un’idea da verificare. Durante l’esecuzione, il framework raccoglie continuamente informazioni sui risultati ottenuti, valuta la qualità delle evidenze disponibili e aggiorna l’albero privilegiando i rami che mostrano il maggiore potenziale. Le ipotesi meno efficaci vengono progressivamente abbandonate, mentre le risorse computazionali vengono concentrate sulle direzioni più promettenti.

L’architettura di Arbor è composta da due elementi principali. Un coordinatore persistente mantiene una visione globale dell’intero processo di ricerca, conserva la memoria delle attività già eseguite e decide come distribuire il budget disponibile. Attorno a questo componente operano agenti esecutori temporanei incaricati di svolgere singole attività, effettuare test, generare codice, eseguire verifiche e raccogliere dati sperimentali. I risultati ottenuti vengono poi reinseriti nel sistema, contribuendo all’aggiornamento continuo dell’albero delle ipotesi.

Questo approccio consente all’agente di accumulare conoscenza nel tempo invece di ripartire continuamente da zero. Ogni iterazione produce nuove informazioni che vengono integrate nella struttura decisionale esistente, permettendo al sistema di affinare progressivamente la propria comprensione del problema e di migliorare le strategie adottate nelle fasi successive. In pratica, Arbor introduce una forma di memoria operativa persistente che collega tra loro le diverse fasi del processo di ottimizzazione.

I ricercatori hanno applicato il framework a diversi scenari di Autonomous Optimization, una categoria di attività nella quale gli agenti AI devono migliorare autonomamente sistemi, dataset o procedure attraverso cicli ripetuti di sperimentazione e valutazione. Tra gli ambiti esaminati figurano l’ottimizzazione di pipeline di addestramento, la generazione sintetica di dati, la progettazione di benchmark e numerosi compiti di software engineering. In tutti questi casi il sistema ha mostrato una capacità superiore di utilizzare in modo efficiente le risorse disponibili rispetto alle architetture agentiche tradizionali.

Particolarmente rilevanti sono i risultati ottenuti nelle attività di sviluppo software. Nei benchmark utilizzati dagli autori, Arbor ha superato le prestazioni di Claude Code e Codex utilizzando lo stesso budget di inferenza, dimostrando che una migliore orchestrazione delle attività può produrre guadagni sostanziali senza modificare il modello linguistico sottostante. Il miglioramento non deriva quindi da una maggiore capacità del modello base, ma dalla capacità del framework di decidere in modo più efficace come e quando impiegare le risorse disponibili.

Il lavoro evidenzia una tendenza sempre più importante nell’evoluzione degli agenti AI avanzati. Se negli ultimi anni l’attenzione si è concentrata principalmente sull’aumento delle dimensioni dei modelli e della potenza computazionale, Arbor suggerisce che una parte significativa dei futuri progressi potrebbe provenire dall’ottimizzazione dei meccanismi di coordinamento, memoria, pianificazione e gestione delle risorse. In scenari complessi come la ricerca automatizzata e lo sviluppo software autonomo, la capacità di selezionare le ipotesi corrette e di allocare dinamicamente il budget di inferenza può avere un impatto determinante sulle prestazioni finali.

Essendo stato rilasciato come progetto open source, Arbor fornisce inoltre una base concreta per la sperimentazione di nuove architetture agentiche orientate all’ottimizzazione autonoma. L’obiettivo non è sostituire i modelli linguistici esistenti, ma aumentare la loro efficacia attraverso un livello superiore di orchestrazione capace di trasformare risorse computazionali già disponibili in risultati significativamente migliori.

Il framework Arbor supera Claude Code e Codex fino a 2,5 volte a parità di budget computazionale

DiFantasy

Di Fantasy

Articoli correlati

Claude Opus 5 vince la guerra dei distributori automatici tra accordi traditi, menzogne e minacce

xAI presenta Grok Voice Think Fast 2.0 per agenti vocali in tempo reale

OpenAI offre gratuitamente GPT-5.6, ChatGPT Work e Codex a 100.000 ricercatori

Ultimi Post

Claude Opus 5 vince la guerra dei distributori automatici tra accordi traditi, menzogne e minacce

xAI presenta Grok Voice Think Fast 2.0 per agenti vocali in tempo reale

OpenAI offre gratuitamente GPT-5.6, ChatGPT Work e Codex a 100.000 ricercatori

Google DeepMind scioglie il gruppo AlphaFold e trasferisce i ricercatori sui progetti Gemini