Immagine AI

Alibaba ha recentemente reso open source MAI-UI, una linea di agenti multimodali progettati per rivoluzionare il modo in cui interagiamo con i nostri dispositivi mobili. Questa tecnologia non si limita a rispondere a domande testuali, ma è in grado di comprendere comandi in linguaggio naturale e di agire direttamente sull’interfaccia di un sistema Android, navigando tra le applicazioni e manipolando schermate reali proprio come farebbe un essere umano. Basato sulla famiglia di modelli Qwen3-VL, questo sistema è stato rilasciato in diverse dimensioni per adattarsi a varie esigenze computazionali, offrendo prestazioni che hanno già superato i record stabiliti dai principali concorrenti del settore.

Il punto di forza di MAI-UI risiede nella sua capacità di risolvere i limiti storici degli agenti grafici precedenti, che spesso peccavano di una scarsa naturalezza nell’interazione o di una gestione carente della privacy. Per superare questi ostacoli, Alibaba ha implementato un framework integrato che combina la collaborazione tra dispositivo e cloud. Questa architettura ibrida permette di gestire le attività più sensibili e personali direttamente sullo smartphone, ricorrendo alla potenza del cloud solo quando è necessaria un’elaborazione su scala massiccia. Questo approccio non solo tutela i dati dell’utente, ma migliora sensibilmente le prestazioni locali, riducendo drasticamente la necessità di chiamate esterne e rendendo l’esperienza d’uso molto più fluida e reattiva.

Tecnicamente, il cuore del sistema è rappresentato dalla strategia di UI Grounding, un metodo avanzato che consente all’agente di mappare con estrema precisione ogni comando vocale o testuale su specifici elementi grafici dello schermo. A differenza dei modelli tradizionali che si affidano a semplici etichette, MAI-UI analizza l’aspetto visivo, il ruolo funzionale e la posizione esatta di ogni componente dell’interfaccia. Per raggiungere questo livello di accuratezza, gli sviluppatori hanno utilizzato un sistema di apprendimento supervisionato affiancato da tecniche di rinforzo, alimentando il modello con una pipeline di dati in continua evoluzione che include traiettorie di navigazione reali eseguite sia da umani che da altri agenti esperti.

L’efficacia di questa tecnologia è supportata da dati numerici impressionanti ottenuti nei test di navigazione e comprensione dello schermo. In benchmark cruciali per il settore, MAI-UI ha superato modelli di riferimento come Gemini 3 Pro, registrando tassi di successo senza precedenti nella gestione di compiti complessi all’interno dell’ambiente Android. La capacità di eseguire azioni strutturate come scorrimenti, inserimento di testi e pressione di pulsanti di sistema, unita alla possibilità di porre domande chiarificatrici quando un ordine appare ambiguo, rende questo agente uno strumento di produttività potenzialmente rivoluzionario.

Oltre alle capacità di navigazione pura, il sistema integra il Model Context Protocol, che gli permette di richiamare strumenti esterni per risolvere compiti che vanno oltre la semplice manipolazione visiva. Attraverso l’uso di centinaia di dispositivi virtuali in parallelo e metodi di apprendimento asincroni, Alibaba ha creato un modello capace di gestire sequenze di azioni molto lunghe senza perdere il filo logico dell’operazione. Con la decisione di rendere il codice e i modelli accessibili a tutti tramite licenza Apache 2.0, l’azienda cinese non solo consolida la sua posizione di leader tecnologico, ma apre le porte a una nuova generazione di servizi digitali dove lo smartphone diventa un assistente proattivo e autonomo.

Di Fantasy