Voice Access di Google sfrutta oral’intelligenza artificiale per rilevare le icone in-app

Google ha lanciato oggi una versione aggiornata di Voice Access , il suo servizio che consente agli utenti di controllare i dispositivi Android utilizzando i comandi vocali. Sfrutta un modello di apprendimento automatico per rilevare automaticamente le icone sullo schermo in base agli screenshot dell’interfaccia utente, consentendo di determinare se elementi come immagini e icone hanno etichette di accessibilità o etichette fornite ai servizi di accessibilità di Android.

Le etichette di accessibilità consentono ai servizi di accessibilità di Android di fare riferimento esattamente a un elemento sullo schermo alla volta, consentendo agli utenti di sapere quando hanno attraversato l’interfaccia utente. Purtroppo alcuni elementi mancano di etichette, una sfida che la nuova versione di Voice Access intende affrontare.

Un modello di rilevamento degli oggetti basato sulla visione chiamato IconNet nel nuovo Voice Access (versione 5.0) è in grado di rilevare 31 diversi tipi di icone, che presto saranno estesi a più di 70 tipi. Come spiega Google in un post sul blog, IconNet si basa sulla nuova architettura CenterNet , che estrae le icone delle app dalle immagini di input e quindi ne prevede la posizione e le dimensioni. Utilizzando Voice Access, gli utenti possono fare riferimento alle icone rilevate da IconNet tramite i loro nomi, ad esempio “Tocca” menu “.”

Per addestrare IconNet, gli ingegneri di Google hanno raccolto ed etichettato più di 700.000 schermate di app, semplificando il processo utilizzando euristiche, modelli ausiliari e tecniche di aumento dei dati per identificare icone più rare e arricchire schermate esistenti con icone poco frequenti. “IconNet è ottimizzato per funzionare su dispositivo per ambienti mobili, con dimensioni compatte e tempi di inferenza rapidi per consentire un’esperienza utente senza interruzioni”, hanno scritto nel loro post sul blog gli ingegneri del software di Google Research Gilles Baechler e Srinivas Sunkara.

Google afferma che in futuro prevede di espandere la gamma di elementi supportati da IconNet a immagini, testo e pulsanti generici. Prevede inoltre di estendere IconNet per distinguere tra icone dall’aspetto simile identificando la loro funzionalità. Nel frattempo, dal lato degli sviluppatori, Google spera di aumentare il numero di app con descrizioni di contenuti valide migliorando gli strumenti per suggerire descrizioni di contenuti per diversi elementi durante la creazione di applicazioni.

Sopra: IconNet analizza i pixel dello schermo e identifica i centri delle icone generando mappe di calore, che forniscono informazioni precise sulla posizione e sul tipo dei diversi tipi di icone presenti sullo schermo.

“Una sfida significativa nello sviluppo di un rilevatore di elementi dell’interfaccia utente sul dispositivo per Voice Access è che deve essere in grado di funzionare su un’ampia varietà di telefoni con una gamma di capacità di prestazioni prestazionali, preservando la privacy dell’utente”, hanno scritto gli autori . “Lavoriamo costantemente per migliorare IconNet.”

Voice Access, lanciato in beta nel 2016, si integra con gli altri sforzi di accessibilità mobile di Google. L’azienda sta continuando a sviluppare Lookout , un’app incentrata sull’accessibilità in grado di identificare gli alimenti confezionati utilizzando la visione artificiale, scansionare documenti per semplificare la revisione di lettere e posta e altro ancora. C’è anche il Progetto Euphonia , che mira ad aiutare le persone con disturbi del linguaggio a comunicare più facilmente; Live Relay , che utilizza il riconoscimento vocale sul dispositivo e la sintesi vocale per consentire ai telefoni di ascoltare e parlare per conto di una persona; e Project Diva , che aiuta le persone a dare i comandi dell’Assistente Google senza usare la voce.

Voice Access di Google sfrutta oral’intelligenza artificiale per rilevare le icone in-app

Diihal

Di ihal

Articoli correlati

Anthropic Claude trasforma ogni utente in uno sviluppatore di app no-code

ElevenLabs lancia l’app mobile per la sintesi vocale avanzata su iOS e Android

Google introduce l’analisi video nell’app Gemini: carica e interagisci con i tuoi file

You missed

Golden Planet lancia Genova AI, un agente intelligente per riassumere e analizzare i contenuti video educativi

Neuroscienze AI: la difficoltà del compito guida l’immagazzinamento della memoria motoria nel cervello

OpenAI esplora i chip AI di Google

L’esperienza AI dei tifosi in Premier League grazie alla partnership di Microsoft