Immagina di chiedere a un assistente digitale di prenotare un volo, compilare un modulo ufficiale o esaminare un prodotto su un sito web, e vederlo davvero agire, cliccare pulsanti, riempire campi e navigare tra pagine come farebbe un umano. Questo non è più un orizzonte fantasioso: è la promessa che Google sta costruendo con il suo nuovo modello Gemini 2.5 “Computer Use”. È questa, in estrema sintesi, la rivoluzione raccontata nell’articolo di VentureBeat: una intelligenza artificiale che non si limita a rispondere, ma diventa un agente pratico che interagisce con il web su comando.
In principio, i modelli come ChatGPT e Gemini erano progettati per conversare, per produrre testo, per rispondere alle nostre richieste. Ma l’evoluzione verso agenti in grado di compiere azioni rappresenta un salto di paradigma. Google, tramite la sua costola DeepMind, ha sviluppato appositamente una versione di Gemini chiamata “Computer Use”, che può usare un browser virtuale per navigare siti web, riempire moduli, cliccare menu a discesa e persino superare elementi di interfaccia come CAPTCHA. In altre parole, l’AI diventa praticamente un utente automatizzato che opera con i comandi testuali di un essere umano.
Il modello non è (ancora) disponibile direttamente per i consumatori finali sotto forma di app o servizio stand-alone: Google ha scelto una strada di collaborazione con società come Browserbase, che offre un browser “headless” — cioè senza interfaccia grafica tradizionale — trasformato però in strumento visuale per l’AI. Su Browserbase c’è già una demo di Gemini 2.5 Computer Use, e si può anche confrontarlo con i modelli di OpenAI e Anthropic in una modalità “arena” visiva.
Ma cosa significa, praticamente, chiedere a Gemini di agire? Nel modello progettato da Google, l’AI opera in cicli iterativi: riceve il compito testuale dall’utente, insieme a uno screenshot del sito Web e la cronologia delle azioni già svolte. Analizza questi input, decide quale azione compiere (per esempio “clicca qui”, “digita questo”, “scorri giù”) e quindi invia al sistema quel comando. Dopo l’azione, l’interfaccia si aggiorna, viene acquisito un nuovo screenshot, e così il ciclo ricomincia finché il compito non è completato o interviene un errore o una scelta di sicurezza.
In test esplorativi, Gemini 2.5 Computer Use ha mostrato performance impressionanti: in una simulazione, è riuscito a compiere un CAPTCHA automatico (“Seleziona tutte le caselle con una motocicletta”) in pochi secondi. Ciò non significa che sia infallibile, e in effetti il sistema si è bloccato in certe fasi anche se mostrava “task completed”. Un altro limite attuale è che, a differenza di altri agenti IA (come quelli di OpenAI o Anthropic), Gemini Computer Use non ha accesso diretto al file system: non può creare documenti o salvare file autonomamente, se non tramite integrazioni esterne.
I benchmark rivelano una marcia in più rispetto ai concorrenti: Gemini 2.5 Computer Use ottiene percentuali superiori in vari test di controllo dell’interfaccia, rispetto ai modelli analoghi di OpenAI e Claude. Inoltre, Google sostiene che operi con latenza minore, un fattore importante quando si tratta di interagire con pagine web in tempo reale.
Tuttavia, realizza chiunque abbia un po’ di familiarità con il mondo del Web che non tutto è lineare: le interfacce cambiano, elementi dinamici si caricano in ritardo, le pagine possono reagire in modi imprevisti. Per questo Google inserisce una serie di salvaguardie: ogni potenziale azione del modello viene valutata da un “servizio di sicurezza” passo per passo. Inoltre, gli sviluppatori che impiegano il modello possono definire regole o richiedere conferma umana per operazioni sensibili come un pagamento. In pratica, Gemini può suggerire “click”, ma può aspettare un segnale – “vai avanti?” – prima di eseguirlo.
Dal punto di vista dei casi d’uso, l’AI “navigatrice” apre scenari nuovi. Pensalo: delegare la raccolta di dati su un sito, l’inserimento di moduli in migliaia di pagine, l’acquisto di biglietti, l’automazione di processi di test su interfacce web. Google stessa la utilizza per migliorare piattaforme interne, recuperare test falliti o accelerare compiti di parsing dati complessi.
Eppure non manca la tensione tra ambizione e cautela. Il rischio che un’AI che agisce al nostro posto compia errori, comprometta sicurezza o compia operazioni indesiderate è reale. È quindi fondamentale che il modello sappia “chiedere permesso”, che le regole di sicurezza siano integrate e che l’essere umano resti supervisore ultimo. Google sembra ben consapevole di ciò, e per questo ha strutturato il sistema proprio con strati multipli di controllo e restrizioni predefinite.
Così, l’orizzonte che appare è quello di un’intelligenza artificiale che non è più solo interlocutrice ma agente capace di muoversi nel Web in nostra vece, assumendosi compiti concreti. È un’evoluzione che porta con sé grandi opportunità — rendere l’automazione davvero “umana” nei gesti — ma anche grandi responsabilità: come garantire precisione, affidabilità e sicurezza in un ambiente così fluido come il Web.