OmniParser, il nuovo modello AI di Microsoft

Microsoft ha recentemente annunciato il rilascio di OmniParser, il suo nuovo modello di intelligenza artificiale, attraverso il blog AI Frontiers. OmniParser è un agente per interfacce utente grafiche (GUI) basato sulla visione artificiale, progettato per tradurre screenshot di interfacce utente in dati comprensibili, migliorando la comprensione delle interfacce da parte dei modelli linguistici di grandi dimensioni (LLM). Il progetto è stato lanciato su Hugging Face con una licenza MIT, offrendo un’opzione open source per gli sviluppatori.

OmniParser è simile alla funzionalità “Computer use” recentemente introdotta da Anthropic e rappresenta un’estensione delle capacità di Microsoft nel settore degli agenti AI. Microsoft ha collaborato con vari partner, tra cui Oracle e Salesforce, entrando nella “Super League of AI Agentic WorkForce” per promuovere l’uso di agenti AI autonomi.

Il modello è stato descritto inizialmente in un documento di ricerca pubblicato a marzo 2024 da Jianqiang Wan e altri ricercatori del gruppo Alibaba e della Huazhong University of Science and Technology. Successivamente, Microsoft ha pubblicato un documento dettagliato, scritto in collaborazione con Yelong Shen di Microsoft GenAI, evidenziando come OmniParser superi i risultati di GPT-4V anche quando utilizzato esclusivamente con input di screenshot, senza informazioni aggiuntive.

Il modello OmniParser è stato testato su diversi benchmark, tra cui SeeClick, Mind2Web e AITW, superando le prestazioni di GPT-4V e GPT-4 di OpenAI nelle attività di riconoscimento delle interfacce. Hugging Face descrive OmniParser come uno strumento versatile, capace di rilevare icone cliccabili e descriverne le funzioni, migliorando l’interazione con l’interfaccia utente.

Per ottimizzare la compatibilità con i modelli linguistici basati sulla visione, OmniParser è stato combinato con modelli avanzati come Phi-3.5-V e Llama-3.2-V. L’integrazione di un modello di rilevamento della regione interagibile (ID) ha contribuito significativamente a migliorare le prestazioni rispetto ai modelli precedenti non ottimizzati.

Un altro contributo importante di OmniParser è l’integrazione con GPT-4V per migliorare la capacità di generare azioni coerenti con le interfacce grafiche. Secondo il benchmark ScreenSpot, OmniParser aumenta notevolmente l’efficacia di GPT-4V nel riconoscere aree rilevanti delle interfacce utente e generare azioni appropriate. Questa funzionalità è stata testata in collaborazione con ricercatori di Carnegie Mellon University e Columbia University all’interno della “Windows Agent Arena”, un’iniziativa di Microsoft per valutare agenti operativi multimodali su larga scala.

Con il lancio di OmniParser, Microsoft punta a consolidare ulteriormente la sua posizione nel settore dell’AI applicata alle interfacce utente, fornendo agli sviluppatori uno strumento avanzato per migliorare l’automazione e la comprensione delle interfacce grafiche. L’approccio open source rappresenta una spinta importante verso la democratizzazione della tecnologia AI e l’innovazione aperta.

OmniParser, il nuovo modello AI di Microsoft

DiFantasy

Di Fantasy

Articoli correlati

Mistral lancia Leanstral e Small 4, modelli linguistici compatti per l’inferenza locale e aziendale

Mistral Forge per creare un’intelligenza artificiale su misura per l’azienda

OpenAI introduce GPT-5.4 Mini e Nano: modelli compatti progettati per applicazioni AI ad alta velocità e larga scala

Ultimi Post

Mistral lancia Leanstral e Small 4, modelli linguistici compatti per l’inferenza locale e aziendale

Mistral Forge per creare un’intelligenza artificiale su misura per l’azienda

OpenAI introduce GPT-5.4 Mini e Nano: modelli compatti progettati per applicazioni AI ad alta velocità e larga scala

Midjourney V8 Alpha: il nuovo modello di generazione visiva tra personalizzazione algoritmica e ottimizzazione dei tempi di rendering