Alla conferenza annuale degli sviluppatori I/O a Mountain View, Google ha fatto una serie di annunci importanti riguardanti l’intelligenza artificiale. Uno di questi è Project Astra, che mira a creare un agente AI universale per il futuro.
Durante la conferenza è stata presentata una versione preliminare di Astra. L’obiettivo è sviluppare un assistente AI multimodale in grado di comprendere il mondo circostante e rispondere istantaneamente per aiutare con domande o compiti comuni. Questo concetto è simile a quello di ChatGPT di OpenAI basato su GPT-4o.
Mentre OpenAI sta per lanciare GPT-4o per gli abbonati ChatGPT Plus, Google procede con calma. L’azienda sta ancora lavorando su Astra e non ha fornito una data precisa per il lancio dell’assistente completo. Tuttavia, ha indicato che alcune funzionalità di Astra saranno integrate nell’assistente Gemini entro la fine dell’anno.
Project Astra, abbreviato come Advanced Seeing and Talking Responsive Agent (Agente Avanzato che Vede e Parla e Risponde), consente agli utenti di interagire con il mondo circostante in modo complesso. L’assistente comprende ciò che vede e sente, fornendo risposte precise in tempo reale.
Demis Hassabis, CEO di Google DeepMind, ha sottolineato l’importanza di un agente che comprenda e risponda al mondo in modo simile alle persone. Inoltre, l’assistente deve essere proattivo, apprendibile e personalizzato per consentire agli utenti di interagire naturalmente e senza ritardi.
In uno dei video dimostrativi di Google, un prototipo di Astra su uno smartphone Pixel è stato in grado di identificare oggetti, descriverli e comprendere il testo su una lavagna. Ha anche mostrato di ricordare informazioni, come la posizione degli oggetti. Un secondo video ha mostrato un agente che suggerisce miglioramenti a un sistema e sovrappone informazioni visive in tempo reale.
Hassabis ha spiegato che Google sta affrontando la sfida di ridurre il tempo di risposta degli agenti per renderli simili a una conversazione umana. Gli agenti elaborano costantemente le informazioni da video e audio, memorizzandole per una risposta efficiente.
Mentre OpenAI ha sviluppato GPT-4o con una latenza media di 320 millisecondi, Google non ha fornito un dato specifico per Astra, ma si prevede che la latenza diminuirà con il progresso del lavoro. Non è chiaro se Astra avrà la stessa gamma emotiva di GPT-4o.
Al momento, Astra rappresenta il primo passo di Google verso un assistente AI avanzato. Non è stata comunicata una data precisa per il lancio di un prodotto finale, ma si prevede che le capacità di Astra saranno integrate nell’app Gemini su varie piattaforme entro la fine dell’anno.
Google introdurrà prima Gemini Live nell’app, consentendo conversazioni bidirezionali con il chatbot. Successivamente, verranno aggiunte le capacità visive, consentendo agli utenti di discutere di ciò che vedono tramite le fotocamere dei loro dispositivi. Hassabis immagina un futuro in cui un assistente AI esperto potrebbe essere sempre a portata di mano tramite telefono o occhiali.