Microsoft ha recentemente annunciato il rilascio di OmniParser, il suo nuovo modello di intelligenza artificiale, attraverso il blog AI Frontiers. OmniParser è un agente per interfacce utente grafiche (GUI) basato sulla visione artificiale, progettato per tradurre screenshot di interfacce utente in dati comprensibili, migliorando la comprensione delle interfacce da parte dei modelli linguistici di grandi dimensioni (LLM). Il progetto è stato lanciato su Hugging Face con una licenza MIT, offrendo un’opzione open source per gli sviluppatori.
OmniParser è simile alla funzionalità “Computer use” recentemente introdotta da Anthropic e rappresenta un’estensione delle capacità di Microsoft nel settore degli agenti AI. Microsoft ha collaborato con vari partner, tra cui Oracle e Salesforce, entrando nella “Super League of AI Agentic WorkForce” per promuovere l’uso di agenti AI autonomi.
Il modello è stato descritto inizialmente in un documento di ricerca pubblicato a marzo 2024 da Jianqiang Wan e altri ricercatori del gruppo Alibaba e della Huazhong University of Science and Technology. Successivamente, Microsoft ha pubblicato un documento dettagliato, scritto in collaborazione con Yelong Shen di Microsoft GenAI, evidenziando come OmniParser superi i risultati di GPT-4V anche quando utilizzato esclusivamente con input di screenshot, senza informazioni aggiuntive.
Il modello OmniParser è stato testato su diversi benchmark, tra cui SeeClick, Mind2Web e AITW, superando le prestazioni di GPT-4V e GPT-4 di OpenAI nelle attività di riconoscimento delle interfacce. Hugging Face descrive OmniParser come uno strumento versatile, capace di rilevare icone cliccabili e descriverne le funzioni, migliorando l’interazione con l’interfaccia utente.
Per ottimizzare la compatibilità con i modelli linguistici basati sulla visione, OmniParser è stato combinato con modelli avanzati come Phi-3.5-V e Llama-3.2-V. L’integrazione di un modello di rilevamento della regione interagibile (ID) ha contribuito significativamente a migliorare le prestazioni rispetto ai modelli precedenti non ottimizzati.
Un altro contributo importante di OmniParser è l’integrazione con GPT-4V per migliorare la capacità di generare azioni coerenti con le interfacce grafiche. Secondo il benchmark ScreenSpot, OmniParser aumenta notevolmente l’efficacia di GPT-4V nel riconoscere aree rilevanti delle interfacce utente e generare azioni appropriate. Questa funzionalità è stata testata in collaborazione con ricercatori di Carnegie Mellon University e Columbia University all’interno della “Windows Agent Arena”, un’iniziativa di Microsoft per valutare agenti operativi multimodali su larga scala.
Con il lancio di OmniParser, Microsoft punta a consolidare ulteriormente la sua posizione nel settore dell’AI applicata alle interfacce utente, fornendo agli sviluppatori uno strumento avanzato per migliorare l’automazione e la comprensione delle interfacce grafiche. L’approccio open source rappresenta una spinta importante verso la democratizzazione della tecnologia AI e l’innovazione aperta.