Immagine AI

Nel dinamico scenario dell’intelligenza artificiale, Google ha recentemente compiuto una mossa strategica che sposta l’attenzione dalla superficie bidimensionale delle immagini alla profondità dei mondi digitali. Il colosso di Mountain View ha infatti confermato ufficialmente l’acquisizione di Common Sense Machines, una startup specializzata nella trasformazione di semplici fotografie e schizzi in modelli tridimensionali di alta qualità. Questa operazione, sebbene condotta su una realtà di dimensioni contenute, rappresenta un tassello fondamentale per la visione a lungo termine di Google, che punta a integrare la comprensione spaziale nei suoi modelli più avanzati e a potenziare l’ecosistema della realtà estesa.

La tecnologia sviluppata da Common Sense Machines si distingue per la capacità di superare uno dei colli di bottiglia più critici del settore digitale: la creazione di contenuti 3D. Tradizionalmente, la realizzazione di oggetti tridimensionali per videogiochi, e-commerce o ambienti virtuali richiedeva ore di laborioso lavoro manuale da parte di artisti specializzati. La startup ha invece messo a punto un sistema che combina architetture all’avanguardia, come i campi radianti neurali e i modelli di diffusione, per ricostruire con precisione millimetrica la struttura e le proprietà fisiche degli oggetti partendo da un semplice input 2D. Una delle innovazioni più interessanti è il metodo che scompone immagini complesse in singoli componenti per poi riassemblarli in modelli ad alta risoluzione, permettendo persino l’editing tramite comandi vocali o testuali.

Questa acquisizione non è solo un’operazione finanziaria, ma segna il ritorno di talenti preziosi all’interno del gruppo. Il co-fondatore e CEO della startup, Tejas Kularni, aveva infatti lavorato in precedenza come ricercatore presso Google DeepMind, lasciando l’azienda nel 2020 proprio con la convinzione che la creazione di mondi virtuali dovesse essere automatizzata per permettere all’intelligenza artificiale di apprendere in modo più efficiente. Ora, con il rientro del team in DeepMind, si prevede una forte sinergia con progetti esistenti come Genie e Veo, focalizzati sulla generazione di video e ambienti interattivi, portando la comprensione spaziale a un livello di realismo superiore.

Le implicazioni pratiche di questa mossa sono vaste e toccano diversi settori. Per i consumatori, questa tecnologia potrebbe alimentare il progetto Android XR, rendendo molto più semplice la creazione di contenuti immersivi per dispositivi indossabili o visori di nuova generazione. Immaginiamo la possibilità di scattare una foto a un mobile o a un oggetto d’arredo e vederlo istantaneamente trasformato in un modello 3D navigabile all’interno di un’applicazione di shopping o di un videogioco. Per le aziende, l’integrazione di queste capacità in Gemini o tramite API cloud potrebbe abbattere drasticamente i costi e i tempi di produzione delle risorse digitali necessarie per l’e-commerce e la robotica.

Di Fantasy