Google Pathdreamer

Google AI presenta Pathdreamer, un modello mondiale per la navigazione indoor

L’intelligenza artificiale di Google ha recentemente introdotto il suo modello mondiale di apprendimento per rinforzo per incapsulare informazioni ricche e significative sull’ambiente circostante, che consente a un agente di apprendimento di fare previsioni specifiche sui risultati attuabili all’interno dell’ambiente.

Il modello del mondo, noto come Pathdreamer , è un modello del mondo di navigazione indoor che genera osservazioni visive a 360º ad alta risoluzione di aree di un edificio non viste da un agente, utilizzando solo osservazioni di semi limitate e una traiettoria di navigazione proposta.

Il modello Pathdreamer può sintetizzare una scena immersiva da un singolo punto di vista, prevedendo ciò che un agente potrebbe vedere se si spostasse in un nuovo punto di vista o anche in un’area completamente invisibile, come dietro un angolo. Oltre alle potenziali applicazioni nell’editing video e nel dare vita alle foto, la risoluzione di questo compito promette di codificare la conoscenza degli ambienti umani a beneficio degli agenti robotici che navigano nel mondo reale.

I modelli del mondo come Pathdreamer possono essere utilizzati anche per aumentare la quantità di dati di addestramento per gli agenti addestrando gli agenti nel modello.

Gli input e le previsioni consistono entrambi in RGB, segmentazione semantica e immagini di profondità. Internamente, Pathdreamer utilizza una nuvola di punti 3D per rappresentare le superfici nell’ambiente. I punti nella nuvola sono etichettati sia con il loro valore di colore RGB che con la loro classe di segmentazione semantica, come muro, sedia o tavolo.

Per prevedere le osservazioni visive in una nuova posizione, la nuvola di punti viene prima riproiettata in 2D nella nuova posizione per fornire immagini di “guida”, da cui Pathdreamer genera RGB realistici ad alta risoluzione, segmentazione semantica e profondità. Man mano che il modello si “muove”, nuove osservazioni (reali o previste) vengono accumulate nella nuvola di punti.

Pathdreamer è addestrato con immagini e ricostruzioni di ambienti 3D da Matterport3D ed è in grado di sintetizzare immagini realistiche e sequenze video continue . Pathdreamer è in grado di generare più immagini diverse e plausibili per regioni ad alta incertezza.

Google mira ad applicare Pathdreamer a diverse attività di navigazione incorporate come Object-Nav, VLN continuo e navigazione a livello stradale. Per ulteriori dettagli, puoi provare tu stesso Pathdreamer utilizzando il suo collegamento al codice open source qui .

Google Pathdreamer

Diihal

Di ihal

Articoli correlati

L’AI di Ventusky per previsioni di grandine a portata di mano

Vibe Coding: nonno di 91 anni crea un’app per la Chiesa con Claude e Replit

Anthropic Claude trasforma ogni utente in uno sviluppatore di app no-code

You missed

DeepBrain AI realizza un chiosco innovativo per la consulenza psicologica ai giovani tramite intelligenza artificiale

La Cina e la crisi delle Zombie Fab: analisi dell’industria dei semiconduttori

L’impatto dell’AI sulla produttività degli sviluppatori esperti: uno studio inaspettato

Testaify lancia piattaforma di testing software autonomo con AI agentica