Google e Waymo introducono Block-NeRF per consentire la ricostruzione di scene su larga scala
Block-NeRF è basato su NeRF e sull’estensione mip-NeRF introdotta di recente.
I ricercatori della UC Berkeley, Waymo e Google Research hanno proposto una variante Block-NeRF basata su griglia per rappresentare ambienti più ampi. Nel documento Block-NeRF: Scalable Large Scene Neural View Synthesis, i ricercatori hanno dimostrato che quando si ridimensiona NeRF per renderizzare scene a scala urbana che si estendono su più blocchi, è fondamentale scomporre la scena in NeRF addestrati individualmente.
Block-NeRF si basa sui NeRF e sull’estensione mip-NeRF introdotta di recente, una rappresentazione multiscala per campi di radianza neurale anti-aliasing che riduce i problemi di aliasing che danneggiano le prestazioni NeRF nelle scene in cui le immagini di input osservano una determinata scena da distanze diverse. Il team incorpora anche le tecniche di NeRF in the Wild (NeRF-W) per gestire gli aspetti incoerenti della scena quando si applica NeRF ai punti di riferimento del set di dati di Photo Tourism. Il Block-NeRF proposto può quindi combinare molti NeRF per ricostruire un ampio ambiente coerente da milioni di immagini
I ricercatori hanno utilizzato Block-NeRF, una variante di Neural Radiance Fields che può rappresentare ambienti su larga scala. I ricercatori hanno dimostrato che quando si ridimensiona NeRF per renderizzare scene a scala urbana che si estendono su più blocchi, è fondamentale scomporre la scena in NeRF addestrati individualmente. Questa scomposizione disaccoppia il tempo di rendering dalle dimensioni della scena, consente di ridimensionare il rendering in ambienti di dimensioni arbitrarie e consente gli aggiornamenti per blocco dell’ambiente. Il team ha adottato diverse modifiche architetturali per rendere NeRF affidabile per i dati acquisiti nel corso di mesi in diverse condizioni ambientali. Hanno anche aggiunto incorporamenti di aspetto, ha appreso il perfezionamento della posa e l’esposizione controllabile a ogni singolo NeRF e ha introdotto una procedura per allineare l’aspetto tra i NeRF adiacenti in modo che possano essere combinati perfettamente.
I ricercatori hanno utilizzato il quartiere Alamo Square di San Francisco come area target e il Mission Bay District della città come linea di base. Il set di dati di allenamento è stato derivato da 13,4 ore di guida provenienti da 1.330 diverse sessioni di raccolta di dati per un totale di 2.818.745 immagini di allenamento.