Salesforce ha recentemente introdotto GTA1, un agente di interfaccia grafica utente (GUI) che utilizza mouse e tastiera per eseguire compiti complessi su sistemi operativi reali. Questo modello ha dimostrato prestazioni superiori rispetto al Computer-Using Agent (CUA) di OpenAI, stabilendo nuovi standard nel campo dell’automazione delle interazioni con le interfacce utente.
Gli agenti GUI tradizionali affrontano due principali difficoltà: l’ambiguità nella pianificazione delle azioni e la precisione nell’esecuzione. La pianificazione ambigua si verifica quando esistono molteplici sequenze di azioni valide per completare un compito, mentre la precisione di esecuzione riguarda la capacità di cliccare esattamente sugli elementi dell’interfaccia utente. GTA1 affronta entrambe queste sfide attraverso due innovazioni principali:
- Test-time Scaling: Invece di selezionare una singola azione alla volta, GTA1 campiona simultaneamente più azioni candidate. Un modello discriminante multimodale valuta e seleziona l’azione più appropriata, consentendo correzioni in caso di errori e migliorando la stabilità del percorso di esecuzione.
- GRPO (Group Relative Policy Optimization): Questo framework di apprendimento per rinforzo ottimizza l’esecuzione dell’azione, premiando il modello solo quando le coordinate del clic corrispondono esattamente all’elemento dell’interfaccia utente previsto. Ciò migliora la precisione di esecuzione rispetto ai modelli precedenti che si basavano su stime approssimative.
GTA1 ha raggiunto risultati eccezionali in vari benchmark:
- ScreenSpot-Pro: Con una precisione del 50,1%, ha superato significativamente il precedente miglior modello, UGround-72B, che si fermava al 34,5%.
- ScreenSpot-V2: Il modello GTA1-72B ha ottenuto una precisione del 92,4%, mostrando prestazioni paragonabili ai modelli proprietari.
- OSWorld-G: Ha stabilito il record più alto tra i modelli open source, con una precisione del 67,7%.
Inoltre, nel benchmark OSWorld, GTA1-7B ha raggiunto un tasso di successo del 45,2%, superando OpenAI CUA (42,9%) e Claude 3.7 (28,0%) .
GTA1 è disponibile in diverse dimensioni, da 7B a 72B parametri, con il modello 7B che offre un equilibrio ottimale tra prestazioni e requisiti computazionali. Salesforce ha reso disponibili il codice e i modelli di GTA1 su GitHub e HuggingFace, promuovendo la trasparenza e la collaborazione nella comunità di ricerca sull’intelligenza artificiale.