Immagine AI

Microsoft ha presentato Webwright un framework open source progettato per trasformare il funzionamento degli agenti AI dedicati alle attività web. Invece di limitarsi a cliccare pulsanti o interpretare screenshot del browser come fanno gli agenti tradizionali, Webwright permette all’intelligenza artificiale di operare generando direttamente codice, script e comandi di sistema per controllare il browser e gestire attività complesse.

L’architettura si basa su Playwright, la libreria di automazione browser sviluppata da Microsoft, ma introduce un approccio radicalmente diverso rispetto ai classici sistemi “click-based”. Nei framework tradizionali l’agente AI osserva il DOM o lo screenshot della pagina e decide azioni sequenziali come cliccare, scorrere o compilare campi. Webwrightinvece fornisce all’AI un ambiente terminale completo nel quale il modello può scrivere codice Playwright, eseguire comandi Bash, leggere log, correggere errori e modificare iterativamente gli script fino al completamento del task.

Secondo il team di ricerca, l’elemento centrale non è più la singola sessione browser ma il codice accumulato durante il processo operativo. Questo avvicina il comportamento degli agenti AI al paradigma utilizzato nell’automazione RPA tradizionale, dove uno script può essere riutilizzato, modificato e rieseguito molte volte senza dover ricostruire manualmente ogni passaggio. In pratica, Webwright trasforma l’interazione web da una sequenza effimera di clic in una pipeline programmabile persistente.

Dal punto di vista tecnico, il framework mantiene una struttura relativamente semplice. Runner, interfaccia modello ed environment sono implementati con poche centinaia di righe di codice e operano tramite un ciclo iterativo singolo, senza ricorrere a complessi sistemi multi-agente. L’intelligenza artificiale riceve lo stato corrente dell’attività, genera blocchi di ragionamento e comandi shell, esegue gli script e riceve in risposta screenshot, log ed errori. Sulla base di questi dati aggiorna continuamente il codice fino a raggiungere il risultato desiderato.

Uno dei problemi che Microsoft cerca di risolvere riguarda le cosiddette “premature completion declarations”, cioè i casi in cui l’agente dichiara erroneamente completata un’attività che in realtà contiene ancora errori o step mancanti. WebLite introduce quindi una fase finale di verifica autonoma nella quale l’AI esegue direttamente script di controllo per validare il risultato ottenuto. Se la verifica fallisce, il task continua invece di interrompersi.

Un secondo limite affrontato dal framework riguarda l’explosion context, cioè la crescita incontrollata della quantità di informazioni contestuali che il modello deve elaborare durante task molto lunghi. Per contenere questo problema, il sistema comprime e riassume automaticamente il contesto operativo ogni venti passaggi, riducendo il carico cognitivo del modello senza perdere informazioni essenziali.

I risultati dei benchmark mostrano miglioramenti significativi rispetto agli approcci tradizionali basati su screenshot e coordinate. In Online-Mind2Web, benchmark dedicato alle operazioni reali sui siti web, Webwright ha raggiunto un’accuratezza dell’86,67% utilizzando GPT-5.4, stabilendo uno dei risultati più elevati tra gli agenti web pubblicamente valutati con sistemi automatici. Anche nel benchmark Odyssey, focalizzato su task web complessi e di lunga durata, il framework ha ottenuto il 60,1%, superando nettamente il precedente miglior risultato di Claude Opus 4.6 fermo al 44,5%.

Uno degli aspetti più interessanti emersi dai test riguarda la capacità di modelli relativamente piccoli di gestire attività web avanzate grazie all’utilizzo di script riutilizzabili. Il modello Q-One 3.5-9B, combinato con strumenti predefiniti, ha raggiunto il 66,2% di accuratezza in task web complessi, suggerendo che l’efficienza operativa degli agenti dipenda sempre meno esclusivamente dalla dimensione del modello linguistico.

Microsoft ritiene inoltre che il futuro degli agenti web sarà probabilmente ibrido. I task ripetitivi e strutturati verranno gestiti tramite codice riutilizzabile, mentre situazioni nuove o eccezionali continueranno a utilizzare approcci più flessibili basati su clic, scroll e input manuali simulati. In questo contesto si inserisce anche Fara 1.5, altro agente AI presentato recentemente da Microsoft, basato invece su un approccio “pixel-to-action” che interpreta direttamente screenshot del browser e genera input di mouse e tastiera.

Il framework evidenzia anche un legame crescente tra agenti AI e tecnologie di accessibilità web. Strutture come accessibility tree e metadati ARIA, nate originariamente per supportare utenti con disabilità, stanno diventando elementi fondamentali per permettere agli agenti AI di comprendere la struttura semantica delle pagine web. Secondo Microsoft, in futuro gli agenti AI potrebbero persino essere utilizzati per individuare e correggere problemi di accessibilità direttamente all’interno dei siti.

Di Fantasy