ByteDance ha recentemente rilasciato UI-TARS-1.5, una versione avanzata del suo agente AI multimodale progettato per interagire con interfacce grafiche utente (GUI) e ambienti di gioco. Questo modello open-source, basato su un potente modello linguistico visivo (VLM), è stato sviluppato per comprendere e manipolare contenuti visivi su schermi, eseguendo compiti complessi in modo autonomo.

UI-TARS-1.5 si distingue per la sua capacità di integrare percezione, ragionamento e azione in un’unica struttura coesa. Utilizza un approccio “Pensa-Poi-Agisci”, in cui analizza prima la situazione, pianifica un’azione e poi la esegue. Questo processo è supportato da un sistema di memoria adattiva che gli consente di apprendere e migliorare continuamente senza necessità di intervento umano diretto.

Il modello ha ottenuto risultati eccezionali in vari benchmark di automazione GUI e inferenza di gioco. Ad esempio, nel benchmark OSWorld, che valuta la capacità di eseguire attività complesse in un ambiente di sistema operativo sintetico, UI-TARS-1.5 ha registrato un tasso di successo del 42,5%, superando i concorrenti come OpenAI’s Operator (36,4%) e Claude 3.7 di Anthropic (28%). Inoltre, ha ottenuto un punteggio del 42,1% nel Windows Agent Arena, migliorando significativamente rispetto al precedente 29,8%.

UI-TARS-1.5 ha dimostrato un’elevata competenza anche in ambienti di gioco complessi. In 14 giochi diversi su Poki.com, ha completato con successo tutti i compiti assegnati. Inoltre, in Minecraft, ha raggiunto un tasso di successo del 42% nelle attività di estrazione e del 31% in quelle di sconfitta dei nemici, evidenziando la sua capacità di operare in scenari dinamici e non strutturati.

Il modello UI-TARS-1.5 è disponibile per il download e l’utilizzo tramite le piattaforme Hugging Face e GitHub. Gli sviluppatori possono integrarlo nelle loro applicazioni per automatizzare compiti che richiedono interazione con interfacce grafiche. Inoltre, è disponibile anche una versione desktop dell’agente, che consente di controllare il computer utilizzando comandi in linguaggio naturale.

Di Fantasy