Immagine AI

Un gruppo di ricercatori ha presentato Harness-1, un agente di ricerca basato su intelligenza artificiale progettato per affrontare uno dei problemi più complessi dei moderni sistemi agentici: la capacità di individuare, conservare e recuperare in modo affidabile le informazioni realmente rilevanti durante ricerche lunghe e articolate. Il progetto introduce un approccio che separa il processo decisionale del modello linguistico dalla gestione operativa dello stato della ricerca, con l’obiettivo di migliorare la qualità del recupero delle evidenze senza aumentare in modo significativo le dimensioni del modello.

Harness-1 è costruito su una base GPT-OSS da 20 miliardi di parametri ed è stato addestrato tramite reinforcement learning all’interno di un’infrastruttura di ricerca definita “stateful retrieval harness”. In questa architettura il modello non è responsabile della memorizzazione completa della cronologia delle operazioni effettuate, delle fonti individuate o delle evidenze raccolte. Tali elementi vengono invece mantenuti da un sistema esterno che conserva lo stato della ricerca e mette a disposizione del modello soltanto le informazioni necessarie nelle varie fasi del processo.

Secondo gli autori, uno dei limiti più significativi degli agenti di ricerca tradizionali deriva proprio dall’utilizzo della finestra di contesto come memoria temporanea. Durante una ricerca complessa il modello deve ricordare quali query ha già eseguito, quali documenti ha consultato, quali evidenze sono risultate affidabili e quali affermazioni richiedono ulteriori verifiche. Con l’aumentare della durata della sessione cresce anche il rischio di perdere informazioni importanti oppure di ripetere passaggi già effettuati. Harness-1 affronta questo problema esternalizzando la memoria operativa e mantenendo all’interno del modello soltanto le decisioni semantiche necessarie per guidare la ricerca.

L’infrastruttura che accompagna il modello mantiene diversi livelli di informazioni. Vengono conservati i documenti candidati individuati durante le ricerche, una raccolta curata delle evidenze considerate più rilevanti, collegamenti compatti alle fonti originali, registri di verifica delle affermazioni e una rappresentazione sintetica dello stato complessivo dell’indagine. In questo modo il modello può concentrarsi sulla selezione delle query, sulla valutazione della qualità delle fonti, sull’identificazione delle informazioni importanti e sulla decisione di proseguire o terminare la ricerca.

L’elemento distintivo del progetto è il metodo di addestramento. Invece di limitarsi all’apprendimento supervisionato basato su esempi di ricerca preesistenti, i ricercatori hanno utilizzato tecniche di reinforcement learning che premiano il recupero corretto delle evidenze rilevanti. L’obiettivo dell’addestramento non consiste quindi soltanto nel produrre una risposta finale corretta, ma nel massimizzare la qualità delle informazioni raccolte durante tutto il percorso di ricerca. Questo approccio sposta l’attenzione dalla generazione del testo alla costruzione di un processo investigativo più robusto e verificabile.

Per valutare il sistema, gli autori hanno utilizzato otto benchmark differenti che coprono scenari eterogenei, inclusi ricerca sul web, dati finanziari, brevetti industriali e problemi multi-hop che richiedono il collegamento di informazioni provenienti da fonti differenti. Il parametro principale utilizzato nello studio è il “curated recall”, una metrica che misura la capacità dell’agente di recuperare e conservare le evidenze effettivamente necessarie alla risoluzione del problema. Harness-1 ha ottenuto un valore medio pari a 0,730, superando di oltre undici punti percentuali il miglior agente open source concorrente considerato nello studio.

I risultati più interessanti emergono nei test di trasferimento, cioè negli scenari che differiscono dai dati utilizzati durante l’addestramento. In questi casi il sistema ha mantenuto prestazioni elevate, suggerendo che il modello non si è limitato a memorizzare strategie specifiche per i benchmark utilizzati ma ha acquisito comportamenti di ricerca più generali. Gli autori evidenziano come la combinazione tra reinforcement learning e gestione esplicita dello stato permetta di sviluppare capacità di recupero delle informazioni che si trasferiscono efficacemente a domini differenti.

La ricerca si inserisce all’interno di una tendenza emergente che vede il cosiddetto “harness” assumere un ruolo sempre più importante nelle prestazioni degli agenti AI. Diversi studi recenti sostengono infatti che una parte significativa dell’efficacia di un agente non dipenda esclusivamente dal modello linguistico sottostante, ma dall’insieme di strumenti, memoria, sistemi di verifica e procedure che ne governano l’esecuzione. In questo contesto il modello diventa uno dei componenti dell’architettura complessiva e non necessariamente quello dominante.

La filosofia progettuale di Harness-1 riflette precisamente questa impostazione. Il modello mantiene il controllo delle decisioni strategiche mentre la piattaforma esterna gestisce la memoria, il tracciamento delle evidenze, la deduplicazione delle informazioni e la rappresentazione dello stato operativo. Questo consente di ridurre la pressione sulla finestra di contesto e di utilizzare in modo più efficiente le risorse computazionali disponibili.

Un approccio di questo tipo potrebbe avere implicazioni significative per i sistemi di ricerca avanzata, gli agenti di intelligence documentale, gli strumenti per l’analisi finanziaria, le piattaforme di ricerca brevettuale e le applicazioni che richiedono verifiche approfondite su grandi quantità di informazioni distribuite. In tutti questi contesti il problema principale non consiste soltanto nel generare una risposta, ma nell’individuare e mantenere nel tempo le evidenze corrette durante percorsi di ricerca che possono coinvolgere decine o centinaia di fonti differenti.

Un altro elemento rilevante riguarda la natura open source del progetto. I ricercatori hanno reso pubblici sia il modello sia il codice dell’infrastruttura utilizzata durante l’addestramento, consentendo alla comunità di replicare gli esperimenti, analizzare le tecniche impiegate e sviluppare ulteriori miglioramenti. Questa scelta potrebbe accelerare la ricerca sugli agenti specializzati nel recupero delle informazioni, un settore che sta diventando sempre più importante con la crescita delle applicazioni agentiche e dei sistemi di ricerca automatizzata.

Harness-1 rappresenta quindi un esempio concreto di come l’evoluzione degli agenti AI stia progressivamente spostando l’attenzione dal semplice aumento delle dimensioni dei modelli verso architetture più sofisticate, nelle quali memoria, strumenti, verifica e gestione dello stato collaborano con il modello linguistico per affrontare compiti complessi. I risultati ottenuti mostrano che l’organizzazione del processo di ricerca può influenzare in modo sostanziale la qualità del recupero delle informazioni e suggeriscono che una parte significativa dei futuri progressi nell’intelligenza artificiale agentica potrebbe derivare proprio dall’evoluzione delle infrastrutture che circondano i modelli, oltre che dai modelli stessi.

Di Fantasy