Google nuove funzionalità per Voice, Lens, Assistant, Maps e Translate.

A tal fine, Google ha annunciato oggi diverse funzionalità basate sull’intelligenza artificiale per Voice, Lens, Assistant, Maps e Translate.

Grandi tendenze su come l’IA può contribuire a un’assistenza sanitaria più efficace che produce risultati migliori per tutti 1
Ciò include la “ricerca all’interno di una scena”, che espande la ricerca di Google Voice e Google Lens e consente agli utenti di puntare su un oggetto o di utilizzare immagini live insieme al testo per definire le capacità di ricerca.

“Consente ai dispositivi di comprendere il mondo nel modo in cui lo facciamo noi, così possiamo trovare facilmente ciò che stiamo cercando”, ha affermato Nick Bell, che guida i prodotti per l’esperienza di ricerca di Google. “Le possibilità e le capacità di questo sono estremamente significative.”
Ad esempio, ha detto Bell, ha recentemente acquistato un cactus per il suo ufficio a casa che ha iniziato ad appassire, quindi ne ha scattato una foto e allo stesso tempo ha cercato istruzioni per la cura che lo aiutassero a riportarlo in vita.

Con un’altra capacità basata sulla comprensione multimodale, un utente potrebbe sfogliare un blog di cucina e imbattersi nell’immagine di un piatto che vuole provare. Ma prima di farlo, vogliono conoscere gli ingredienti e trovare ristoranti locali ben valutati che offrono consegne a domicilio. La comprensione multimodale riconosce le complessità del piatto e le combina con l’intento dichiarato scansionando milioni di immagini, recensioni e contributi della comunità, ha affermato Bell.

Questa funzione sarà disponibile a livello globale entro la fine dell’anno in inglese e verrà implementata in altre lingue nel tempo.

Allo stesso modo, Google sta sviluppando la capacità per gli utenti di eseguire ricerche multiple per raccogliere istantaneamente informazioni su più oggetti in una scena. Così, ad esempio, in una libreria, possono scansionare un intero scaffale e ottenere informazioni su tutti i libri, nonché consigli e recensioni. Ciò sfrutta la visione artificiale, l’elaborazione del linguaggio naturale (PNL) , la conoscenza dal Web e le tecnologie sui dispositivi.

I sistemi di intelligenza artificiale stanno consentendo alla ricerca di fare “grandi balzi in avanti”, ha affermato Bell.

“La ricerca non dovrebbe essere limitata alla digitazione di parole nella casella di ricerca”, ha aggiunto. “Vogliamo aiutare le persone a trovare informazioni ovunque si trovino, come vogliono, in base a ciò che vedono, sentono e sperimentano”.

Niente più “Ehi Google”
Google ha semplificato l’avvio di una conversazione con il suo Assistente Google. Con una funzione “guarda e parla”, gli utenti non devono più dire “Ehi Google” ogni volta affinché il sistema riconosca che stanno parlando con esso.
“Un assistente digitale è davvero buono solo quanto la sua capacità di comprendere gli utenti”, ha affermato Nino Tasca, direttore di Google Assistant. “E con ‘capire’ non intendiamo solo ‘capire’ le parole che stai dicendo, ma tenere conversazioni che sembrano naturali e facili.”

Google ha lavorato per analizzare le esperienze di conversazione, le sfumature e le imperfezioni nel linguaggio umano. Ciò ha comportato investimenti significativi nell’intelligenza artificiale e nel parlato, nella comprensione del linguaggio naturale (NLU) e nella sintesi vocale o TTS. Questo è stato raggruppato in ciò che Google ha soprannominato “meccanica conversazionale”, ha detto Tasca.

Analizzando le capacità dell’IA, i ricercatori si sono resi conto che avevano bisogno di sei diversi modelli di apprendimento automatico, che elaborassero oltre 100 segnali, tra cui prossimità, orientamento della testa, rilevamento dello sguardo, fraseggio dell’utente, segnali di corrispondenza vocale e vocale, solo per capire che stanno parlando con Google Assistant. Una nuova funzionalità, Nest Hub Max, consente ai sistemi di elaborare e riconoscere gli utenti per avviare conversazioni molto più facilmente, ha affermato Tasca.

Verrà lanciato questa settimana per Android e per iOS nelle prossime settimane.

Un’altra caratteristica annunciata oggi riguarda le frasi veloci o molto popolari, come “alza il volume”, “rispondi a una telefonata” o ferma o posticipa un timer.

“È molto più facile e veloce dire ‘Imposta un timer per 10 minuti’ che dover dire ‘Hey Google’ ogni volta”, ha affermato Tasca.

Ulteriori miglioramenti del linguaggio naturale all’Assistente Google si basano sul modo in cui gli utenti parlano nella loro vita quotidiana. Le conversazioni reali sono piene di sfumature, ad esempio dicono “um” o si mettono in pausa o apportano correzioni automatiche. Questi tipi di indizi sfumati possono verificarsi avanti e indietro in meno di 100 o 200 millisecondi, ma ogni persona è in grado di capire e rispondere di conseguenza, ha sottolineato Tasca.

“Con due umani che comunicano, queste cose sono naturali”, ha detto Tasca. “Non ostacolano davvero la comprensione tra le persone. Vogliamo che le persone possano semplicemente parlare con l’Assistente Google come farebbero con un altro essere umano e capirne il significato ed essere in grado di realizzare l’intento”.

I miglioramenti del linguaggio naturale all’Assistente Google saranno disponibili entro l’inizio del 2023.

Mappare il mondo con l’IA
Ulteriori nuove funzionalità che sfruttano i progressi dell’IA e della visione artificiale stanno fondendo miliardi di immagini da Street View con foto aeree per fornire viste coinvolgenti in Google Maps. Queste funzionalità saranno implementate a Los Angeles, Londra, New York, San Francisco e Tokyo entro la fine dell’anno, con altre città che seguiranno, secondo Miriam Daniel, vicepresidente di Google Maps.

“Negli ultimi anni ci siamo spinti a ridefinire continuamente cosa può essere una mappa rendendo disponibili informazioni nuove e utili al nostro miliardo di utenti”, ha affermato Daniel. “L’intelligenza artificiale sta alimentando la prossima generazione di esperienze per esplorare il mondo in un modo completamente nuovo”.

Con le nuove funzioni di Google Maps, ad esempio, un utente che sta pianificando un viaggio a Londra potrebbe voler determinare i migliori luoghi d’interesse e ristoranti. In tal modo, possono “volare virtualmente” sull’Abbazia di Westminster o sul Big Ben e utilizzare un dispositivo di scorrimento temporale per vedere come appaiono questi punti di riferimento in diversi momenti della giornata. Possono anche scivolare fino al livello della strada per esplorare ristoranti e negozi della zona, ha detto Daniel.

“Puoi prendere decisioni informate su quando e dove andare”, ha detto. “Puoi guardare dentro per capire rapidamente l’atmosfera di un posto prima di prenotare le tue prenotazioni.”

Google Maps ha anche recentemente lanciato la capacità di identificare percorsi ecologici ed efficienti dal punto di vista del consumo di carburante. Finora, le persone l’hanno usato per percorrere 86 miliardi di miglia e Google stima che ciò abbia risparmiato più di mezzo milione di tonnellate di emissioni di carbonio, l’equivalente di togliere 100.000 auto dalla strada, ha detto Daniel. Questa capacità è ora disponibile negli Stati Uniti e in Canada e sarà estesa all’Europa entro la fine dell’anno.

“Tutte queste esperienze sono potenziate dalla potenza dell’IA”, ha detto Daniel.

Nel frattempo, Google Translate ha annunciato oggi di essere stato aggiornato per includere 24 nuove lingue, portando il totale delle lingue supportate a 133. Queste sono parlate da oltre 300 milioni di persone in tutto il mondo, secondo Isaac Caswell, ricercatore di Google Translate.

Ha aggiunto che ci sono ancora circa 6.000 lingue che non sono supportate. Tuttavia, le nuove lingue supportate rappresentano un grande passo avanti, ha sottolineato. “Perché come puoi comunicare in modo naturale se non è nella lingua con cui ti senti più a tuo agio?”

Google nuove funzionalità per Voice, Lens, Assistant, Maps e Translate.

Diihal

Di ihal

Articoli correlati

Vibe Coding: nonno di 91 anni crea un’app per la Chiesa con Claude e Replit

Anthropic Claude trasforma ogni utente in uno sviluppatore di app no-code

ElevenLabs lancia l’app mobile per la sintesi vocale avanzata su iOS e Android

You missed

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Grok arriva sulle Tesla: l’intelligenza artificiale di Elon Musk si integra nelle auto

Lavawave lancia SCAM GUARD, AI per contrastare i crimini digitali

Google Gemini introduce la funzione di generazione video da foto con Veo 3