Microsoft presenta Fara1.5, l’agente browser che lavora osservando lo schermo come farebbe un umano

Microsoft ha rilasciato Fara1.5, una nuova generazione di Computer Use Agent pensata per operare direttamente all’interno del browser eseguendo per conto dell’utente azioni come confronto di prodotti, compilazione di moduli, prenotazioni, ricerche e gestione della posta. La caratteristica più interessante, dal punto di vista dell’architettura, è l’approccio definito pixel-to-action: il modello non interagisce con il DOM né con API strutturate del browser, ma riceve in input degli screenshot della schermata e produce in output sequenze di eventi mouse e tastiera, esattamente come farebbe un essere umano davanti al monitor. Questa scelta lo rende indipendente dalla struttura tecnica dei siti e in linea di principio compatibile con qualunque interfaccia web visibile, comprese quelle che generano contenuto dinamico e ostico da raggiungere via scraping tradizionale.

Il sistema viene distribuito in tre tagli, 4B, 9B e 27B parametri, ed è integrato in MagenticLite, l’ambiente sandbox di Microsoft pensato per ospitare agenti basati su modelli di dimensioni contenute. Il modello di punta da 27 miliardi di parametri viene dichiarato come capace di raggiungere il 72% di task success rate sul benchmark Online-Mind2Web, un valore che supera in modo netto Operator di OpenAI, fermo al 58,3%, e Gemini 2.5 Computer Use di Google, al 57,3%, oltre a posizionarsi davanti a Navigator n1 di Utori al 64,7%. Sul benchmark WebVoyager le percentuali salgono a 88,6% per il 27B e 86,6% per il 9B. Va sottolineato che si tratta di numeri comunicati dal produttore stesso e che richiederanno verifica indipendente, come sempre accade in questo settore dove la scelta di task e setup sperimentale incide pesantemente sui risultati.

Il modello è costruito a partire da Qwen3.5, l’open source di Alibaba, e funziona attraverso un loop osserva-pensa-agisci. A ogni iterazione riceve la cronologia del dialogo precedente e le ultime tre schermate del browser, valuta lo stato corrente e produce una singola azione da eseguire. Un elemento di design degno di nota sono le cosiddette meta-action, che permettono all’agente di uscire dalla pura sequenza clicca-digita: il modello può memorizzare informazioni rilevanti per i passaggi successivi, chiedere conferma all’utente quando mancano dati personali necessari per proseguire e, soprattutto, è addestrato a richiedere approvazione esplicita prima di eseguire operazioni irreversibili come l’invio di un’email o la conferma di una prenotazione.

Sul fronte dell’addestramento, Microsoft ha dichiarato di aver utilizzato circa due milioni di esempi, il 60% dei quali derivanti da reali traiettorie di navigazione web. Per le azioni che non possono ragionevolmente essere apprese su internet aperto, come login e invio di posta, è stato sviluppato FaraEnvs, un insieme di sei ambienti sintetici che riproducono mail, calendari, piattaforme di streaming, sistemi di gestione di esperimenti di machine learning e servizi di prenotazione. Questi ambienti sono stati realizzati combinando GitHub Copilot CLI e revisione umana, e ricostruiscono interfacce e database verosimili in modo che l’agente possa apprendere in sicurezza anche operazioni distruttive. La generazione dei dati di addestramento ha fatto leva su un modello teacher, GPT-5.4 in configurazione solver, che agisce nello stesso action space di Fara1.5 e produce dimostrazioni; il solver registra l’83% sul medesimo benchmark Online-Mind2Web, il che significa che lo studente da 27B si avvicina notevolmente al maestro pur essendo enormemente più piccolo.

L’aspetto sicurezza è trattato esplicitamente a livello di addestramento attraverso tre situazioni che obbligano alla conferma dell’utente: richieste di dati personali, istruzioni ambigue ed esecuzione di operazioni non reversibili. A questo si aggiunge il livello infrastrutturale di MagenticLite, dove ogni azione è tracciata e verificabile e dove la separazione sandbox tra il browser dell’agente e il sistema dell’utente limita la superficie di rischio. È un punto particolarmente rilevante perché gli agenti pixel-to-action, proprio per il loro funzionamento, possono in linea teorica essere indotti a comportamenti indesiderati tramite prompt injection visiva inserita in pagine web, e mitigazioni di questo tipo sono oggi parte integrante della discussione sulla maturità di questi sistemi.

Microsoft ha già anticipato che il perimetro non si fermerà al browser: l’obiettivo dichiarato è estendere il controllo ad applicazioni desktop, software gestionali aziendali e in prospettiva al terminale e all’esecuzione di script. Al momento Fara1.5-9B è disponibile attraverso la piattaforma Foundry di Microsoft, mentre le versioni 4B e 27B verranno rilasciate progressivamente.

Microsoft presenta Fara1.5, l’agente browser che lavora osservando lo schermo come farebbe un umano

DiFantasy

Di Fantasy

Articoli correlati

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Ultimi Post

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Claude Record a Skill trasforma una registrazione dello schermo in una procedura automatizzabile