Una nuova ondata di agenti browser alimentati dall’intelligenza artificiale sta emergendo, promettendo di trasformare il modo in cui le aziende interagiscono con il web. Questi agenti possono navigare autonomamente sui siti web, recuperare informazioni e persino completare transazioni. Tuttavia, i primi test rivelano discrepanze significative tra le promesse e le prestazioni effettive.
Mentre esempi orientati al consumatore, come quelli offerti dal nuovo agente browser di OpenAI, Operator, hanno attirato l’attenzione mediatica per la loro capacità di ordinare pizza o acquistare biglietti per eventi, la vera domanda riguarda le principali applicazioni per sviluppatori e aziende. “La cosa che non sappiamo è quale sarà l’app killer”, ha affermato Sam Witteveen, co-fondatore di Red Dragon, una società che sviluppa applicazioni per agenti AI. “La mia ipotesi è che si tratterà di attività che richiedono tempo sul web e che non ti piacciono realmente.” Questo include operazioni come cercare il prezzo più basso di un prodotto o prenotare le migliori sistemazioni alberghiere. È probabile che questi agenti vengano utilizzati in combinazione con altri strumenti, come Deep Research, permettendo alle aziende di condurre ricerche più sofisticate e di eseguire compiti complessi sul web.
Le aziende devono valutare attentamente questo panorama in rapida evoluzione, poiché sia i player affermati che le startup stanno adottando approcci diversi per risolvere la sfida della navigazione autonoma.
Il campo è rapidamente diventato affollato, con la presenza sia di grandi aziende tecnologiche che di startup innovative:
- Operator di OpenAI (lanciato a gennaio 2025): disponibile per gli abbonati a ChatGPT Pro ($200/mese), focalizzato sull’automazione web per i consumatori.
- Proxy di Convergence (lanciato a dicembre 2024): una startup britannica che offre un uso limitato gratuito (5 sessioni al giorno) o accesso illimitato per $20/mese.
- Project Mariner di Google: attualmente in fase di test preliminare con una lista d’attesa per l’accesso.
- Computer Use di Anthropic (lanciato a ottobre 2024): si prevede un aggiornamento a breve.
- OmniParser V2 di Microsoft (febbraio 2025): un progetto open-source per convertire screenshot di interfacce utente in dati strutturati, permettendo ai modelli di linguaggio di interpretare e interagire con i siti.
- UI-TARS di ByteDance: richiede un accesso più profondo al sistema, sollevando potenziali preoccupazioni sulla sicurezza.
- Browser-Use: uno strumento orientato agli sviluppatori che consente la scelta dei modelli AI, inclusi Gemini 2.0 Flash di Google.
Operator e Proxy sono i più avanzati in termini di facilità d’uso per i consumatori e prontezza all’uso. Molti degli altri sembrano posizionarsi più per un utilizzo da parte di sviluppatori o aziende. Ad esempio, Browser-Use, una startup di Y-Combinator, permette agli utenti di personalizzare i modelli utilizzati dall’agente, offrendo un maggiore controllo su come l’agente opera, incluso l’uso di un modello dal proprio computer locale. Tuttavia, questo richiede un coinvolgimento più approfondito.
Altri strumenti offrono vari gradi di funzionalità e interazione con le risorse locali del computer. Non ho nemmeno testato UI-TARS di ByteDance per ora, poiché richiede un accesso a livello più basso alle funzionalità di sicurezza e privacy del mio computer (se lo testerò, utilizzerò sicuramente un computer secondario).
I test hanno evidenziato come le capacità di ragionamento possano essere più importanti delle mere funzionalità di automazione. Operator, in particolare, ha mostrato più bug.
Ad esempio, ho chiesto agli agenti di trovare e riassumere i cinque articoli più popolari di VentureBeat. Era un compito ambiguo, poiché VentureBeat non ha una sezione “più popolare” per sé. Operator ha avuto difficoltà: inizialmente è entrato in un loop di scorrimento infinito mentre cercava gli articoli “più popolari”, richiedendo un intervento manuale. In un altro tentativo, ha trovato un articolo di tre anni fa intitolato “Top five stories of the week”. Al contrario, Proxy ha dimostrato un migliore ragionamento identificando i cinque articoli più visibili sulla homepage come un indicatore pratico di popolarità, fornendo riassunti accurati.
La distinzione è diventata ancora più chiara in compiti reali. Ho chiesto agli agenti di prenotare un tavolo in un ristorante romantico per mezzogiorno a Napa, California. Operator ha affrontato il compito in modo lineare: ha cercato prima un ristorante romantico, poi ha verificato la disponibilità a mezzogiorno. Quando non ha trovato tavoli disponibili, si è bloccato. Proxy ha mostrato un ragionamento più sofisticato iniziando con OpenTable per trovare ristoranti sia romantici che disponibili all’orario desiderato, suggerendo persino un ristorante con una valutazione leggermente migliore.
Anche compiti apparentemente semplici hanno rivelato differenze importanti. Quando ho cercato il “prezzo del YubiKey 5C NFC” su Amazon, Proxy ha trovato rapidamente l’articolo più facilmente rispetto a Operator.
OpenAI non ha divulgato molto sulle tecnologie utilizzate per addestrare il suo agente Operator, oltre a dire che ha addestrato il suo modello su compiti di utilizzo del browser. Convergence, invece, ha fornito più dettagli: il suo agente utilizza qualcosa chiamato Generative Tree Search per “sfruttare modelli del web che prevedono lo stato del sito dopo un’azione proposta. Questi vengono generati ricorsivamente per produrre un albero di possibili futuri che vengono esaminati per selezionare la prossima azione ottimale, come classificato dai nostri modelli di valore. I nostri modelli del web possono anche essere utilizzati per addestrare agenti in situazioni ipotetiche senza generare molti dati costosi.”
Sulla carta, questi strumenti sembrano essere molto simili. Proxy di Convergence raggiunge l’88% nel benchmark WebVoyager, che valuta gli agenti web su 643 compiti reali su 15 siti popolari come Amazon e Booking.com. Operator di OpenAI ottiene l’87%.