Un’intelligenza artificiale che non si affida a comandi testuali o API rigide, ma guarda lo schermo proprio come un essere umano: riconosce pulsanti, menu e icone, decide dove cliccare, impara dai propri errori e porta a termine complesse sequenze di operazioni. Questa non è fantascienza, è ciò che inaugura GUI‑Owl, il modello multimodale end-to-end di Alibaba, accompagnato dal sofisticato ecosystem di agenti di Mobile‑Agent‑v3.
GUI‑Owl, sviluppato sull’architettura Qwen2.5‑VL, è un modello che non si limita ad osservare, ma comprende l’interfaccia grafica. Addestrato su enormi dataset sintetici che includono screenshot, alberi di accessibilità e dati prima/dopo un’azione, è capace di pianificare, ragionare, dedurre significati e prevedere le conseguenze delle proprie scelte. Tutto questo è orchestrato all’interno di un unico modello modulare, capace di operare su ambienti mobile e desktop.
GUI‑Owl da solo è potente, ma insieme a Mobile‑Agent‑v3 diventa una vera e propria squadra di agenti specializzati. Ecco i ruoli:
- Manager: si occupa della pianificazione e della suddivisione degli obiettivi;
- Worker: esegue fisicamente le azioni nella GUI;
- Reflector: monitora i progressi e gestisce il recupero dagli errori;
- Notetaker: registra informazioni chiave delle operazioni;
- Modulo RAG: integra conoscenze esterne dalla rete;
- Interfaccia GUI: compatibile con dispositivi mobile e PC.
Questi agenti collaborano in modo fluido, simile a un team dinamico che lavora insieme per completare un compito lungo e complesso.
Le prestazioni sono sorprendentemente elevate: GUI‑Owl da 32 miliardi di parametri ha ottenuto il 94,2 % in benchmark GUI, superando nettamente GPT‑4o (53,5 %). Mobile‑Agent‑v3 ha invece raggiunto il 73,3 % su AndroidWorld (contro il 44,8 % di Anthropic Claude) e il 37,7 % su compiti desktop cross-app (OSWorld).
Un incredibile balzo in avanti, che sfida il dominio delle soluzioni proprietarie chiuse: ora l’open source può primeggiare anche in compiti grafici sofisticati.
Dietro questi risultati non c’è solo un modello brillante, ma un intero ecosistema tecnologico:
- Ambienti virtuali cloud che simulano Android, Windows, macOS e Ubuntu, raccolgono dati d’uso autentici generati in loop auto-miglioranti;
- Capacità integrate in GUI‑Owl per percepire, pianificare, comprendere le azioni e ragionare;
- Un framework di reinforcement learning scalabile, con training asincrono e tecnica Trajectory-Aware Relative Policy Optimization (TRPO) per ottimizzare le politiche agentiche.
Pensaci: automatizzare una sequenza complessa su smartphone o desktop, senza script fissi o laboriose configurazioni. GUI‑Owl osserva, deduce e agisce. Mobile‑Agent‑v3 coordina tutto: affronta popup imprevisti, tiene traccia dei progressi e si adatta in tempo reale grazie alla sua struttura multi-agente modulare. I contesti di uso includono automazione, testing, supporto accessibile e molto altro.