Apple ha recentemente introdotto UI-JEPA, un’architettura innovativa che migliora la comprensione delle intenzioni degli utenti basandosi sulle loro interazioni con l’interfaccia utente (UI). Questo nuovo sistema è progettato per essere efficiente in termini di risorse e ottimizzato per l’uso diretto sui dispositivi, offrendo una soluzione leggera e rispettosa della privacy.
UI-JEPA aiuta a capire cosa vuole fare l’utente analizzando come interagisce con l’interfaccia. A differenza dei modelli complessi e lenti come GPT-4 Turbo, UI-JEPA è progettato per funzionare bene con risorse limitate e in tempo reale sui dispositivi degli utenti.
UI-JEPA si basa su un approccio chiamato Joint Embedding Predictive Architecture (JEPA), che è stato sviluppato per analizzare e prevedere le parti essenziali di immagini e video senza dover ricreare ogni dettaglio.
Include un codificatore video che trasforma le interazioni UI in rappresentazioni astratte e un modello di linguaggio che interpreta questi dati per capire l’intento dell’utente.
Intent in the Wild (IIW) e Intent in the Tame (IIT) sono i nuovi set di dati aiutano a testare e migliorare le capacità di UI-JEPA, con focus su interazioni ambigue e chiare.
UI-JEPA ha dimostrato di superare altri modelli in test specifici e di funzionare bene anche con meno risorse rispetto ai modelli basati su cloud più grandi. Pur essendo efficace per compiti familiari, può essere meno performante in situazioni nuove o sconosciute.
UI-JEPA potrebbe migliorare i sistemi di feedback per agenti AI, riducendo i costi di annotazione e migliorando la privacy. Può, infine, essere integrato in sistemi per tracciare e prevedere l’intento dell’utente in varie applicazioni.