ByteDance, la società madre di TikTok, ha recentemente introdotto un innovativo agente di intelligenza artificiale denominato UI-TARS, progettato per interagire autonomamente con interfacce grafiche utente (GUI) su sistemi operativi desktop e mobile. Questo agente è in grado di comprendere e manipolare ambienti visivi, eseguendo compiti complessi con interventi umani minimi.

UI-TARS è stato addestrato su circa 50 miliardi di token ed è disponibile in due versioni: una con 7 miliardi di parametri e un’altra con 72 miliardi. Le sue capacità sono state valutate su oltre dieci benchmark relativi alle GUI, tra cui performance, percezione, grounding e abilità generali dell’agente. I risultati hanno dimostrato che UI-TARS supera costantemente modelli di punta come GPT-4o di OpenAI, Claude di Anthropic e Gemini di Google.

Una caratteristica distintiva di UI-TARS è la sua capacità di apprendere iterativamente dai propri errori attraverso un processo denominato “reflection tuning”. Questo gli consente di adattarsi a situazioni impreviste con un intervento umano minimo, migliorando continuamente le sue prestazioni. Inoltre, l’agente utilizza input multimodali, tra cui testo, immagini e interazioni, per comprendere e navigare negli ambienti visivi.

L’interfaccia utente di UI-TARS è suddivisa in due sezioni: una a sinistra che mostra il suo processo di “pensiero” passo dopo passo, e una più ampia a destra dove apre file, siti web e applicazioni, eseguendo automaticamente le azioni necessarie. Ad esempio, in una dimostrazione, l’agente è stato incaricato di trovare voli andata e ritorno da Seattle a New York per determinate date. UI-TARS ha navigato autonomamente sul sito della Delta Airlines, inserito le informazioni richieste e ordinato i risultati per prezzo, spiegando ogni passaggio nel pannello di “pensiero” prima di eseguire l’azione.

In un altro scenario, gli è stato chiesto di installare un’estensione autoDocstring in Visual Studio Code. UI-TARS ha aperto l’applicazione, navigato nel pannello delle estensioni, cercato l’estensione specifica e completato l’installazione, fornendo spiegazioni dettagliate di ogni passaggio nel suo pannello di “pensiero”.

Di Fantasy