Con l’evento WWDC 2024 di Apple in arrivo a giugno, il colosso tecnologico punta a integrare l’intelligenza artificiale generativa nei suoi prodotti. Un nuovo protagonista è Ferret-UI, un modello LLM (Large Language Model) su misura per l’interazione con l’interfaccia utente mobile.
In un articolo intitolato “Ferret-UI: Capire l’Interfaccia Utente Mobile con i LLM Multimodali”, gli autori spiegano come Ferret-UI affronti le sfide specifiche della comprensione delle schermate dell’interfaccia utente.
A differenza dei LLM generici come GPT-3, Ferret-UI si concentra su una comprensione avanzata delle schermate dell’interfaccia utente mobile. Affronta le sfide uniche di queste schermate, con proporzioni allungate e oggetti più piccoli, come icone e testo, attraverso un approccio chiamato “qualsiasi risoluzione”.
Ferret-UI apprende da una vasta gamma di compiti dell’interfaccia utente, come il riconoscimento delle icone e la ricerca di testo, per comprendere la semantica e il posizionamento spaziale degli elementi.
Per valutare Ferret-UI, gli autori creano un benchmark completo che include diverse attività dell’interfaccia utente. I risultati mostrano la superiorità di Ferret-UI rispetto ad altri modelli, soprattutto nelle attività di base dell’interfaccia utente e nel ragionamento avanzato.
Se Apple integra Ferret-UI in Siri, potrebbe portare a un’esperienza rivoluzionaria per gli utenti Apple. Questo potrebbe migliorare le funzionalità di accessibilità, offrire assistenza personalizzata e facilitare la navigazione dell’interfaccia utente in linguaggio naturale.
Questo annuncio segue il rilascio di MM1 e ReALM da parte di Apple e un accordo di licenza con Shutterstock per acquisire dati di formazione sull’intelligenza artificiale.