Apple sta portando avanti un ambizioso progetto per valutare se l’intelligenza artificiale possa non solo eseguire comandi, ma anche comprendere le implicazioni delle proprie azioni all’interno delle app. Un recente studio, co-firmato dall’azienda e presentato all’ACM Conference on Intelligent User Interfaces in Italia, esplora proprio questa tematica. Il titolo dello studio è “Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts”. L’obiettivo è misurare la consapevolezza dell’AI riguardo agli effetti delle sue azioni sulle interfacce mobili.
Tradizionalmente, la ricerca sull’AI in ambito interfacce utente si è concentrata sulla capacità dell’agente di navigare correttamente tra i menu, riconoscere pulsanti e selezionare opzioni. Tuttavia, Apple e i suoi collaboratori hanno deciso di andare oltre, ponendo la domanda: non basta che l’AI prema il pulsante giusto, deve anche sapere quando è il caso di NON farlo. Per questo motivo, lo studio ha coinvolto partecipanti che hanno interagito con app reali, registrando le azioni che considererebbero preoccupanti se eseguite autonomamente da un’AI, come inviare messaggi, modificare password o effettuare transazioni finanziarie.
Da queste osservazioni è nato un framework di classificazione dell’impatto, che valuta ogni azione sulla base di diversi criteri:
- Intenzionalità dell’utente: se l’azione è finalizzata a una navigazione, una transazione o una comunicazione.
- Impatto visivo sull’interfaccia: quanto l’azione modifica l’aspetto dell’interfaccia.
- Conseguenze dirette per l’utente: gli effetti immediati dell’azione.
- Reversibilità dell’azione: se l’azione può essere annullata facilmente.
- Frequenza d’uso nella vita reale: quanto spesso l’azione viene compiuta dagli utenti.
L’obiettivo è aiutare l’AI a porsi domande come: “Si può annullare?”, “Avvisa qualcun altro?”, “È un’azione permanente?” prima di eseguire un comando.
Per testare questo framework, gli autori dello studio hanno messo alla prova cinque grandi modelli linguistici, tra cui GPT-4, Google Gemini e il meno noto Ferret-UI di Apple. I risultati hanno mostrato che Gemini ha raggiunto un’accuratezza del 56%, mentre GPT-4 multimodale ha toccato il 58%, grazie alla sua capacità di ragionamento a catena (chain-of-thought), cioè quella strategia in cui il modello spiega passo dopo passo la sua logica. Ferret-UI, il modello sviluppato da Apple, non è stato il migliore, ma ha mostrato progressi significativi e conferma che l’azienda sta seriamente sviluppando un’AI proprietaria per navigare e interpretare le interfacce mobili, con un focus particolare su Siri.