I ricercatori utilizzano il deep learning per trasformare Landmark Photos 4D
I ricercatori della Cornell University hanno sviluppato un nuovo metodo che utilizza il deep learning per trasformare le foto dei punti di riferimento del mondo in 4D. Il team ha fatto affidamento su foto turistiche disponibili pubblicamente di punti importanti come la Fontana di Trevi a Roma, ei risultati finali sono immagini 3D che sono manovrabili e possono mostrare cambiamenti nell’aspetto nel tempo.
Il nuovo metodo comprende e sintetizza decine di migliaia di foto senza tag e senza data, ed è un grande passo avanti per la visione artificiale .
Il lavoro si intitola ” Crowdsampling the Plenoptic Function ” ed è stato presentato alla conferenza europea virtuale sulla visione artificiale , che si è svolta tra il 23 e il 28 agosto.
Noah Snavely è professore associato di informatica alla Cornell Tech e autore senior dell’articolo. Altri collaboratori includono lo studente di dottorato della Cornell Zhengqi Li, primo autore dell’articolo, così come Abe Davis, assistente professore di informatica presso la Facoltà di informatica e scienza dell’informazione, e lo studente di dottorato della Cornell Tech Wenqi Xian.
“È un nuovo modo di modellare la scena che non solo ti consente di muovere la testa e vedere, diciamo, la fontana da diversi punti di vista, ma ti offre anche i controlli per cambiare l’ora”, ha detto Snavely.
“Se andassi davvero alla Fontana di Trevi in vacanza, l’aspetto che avrebbe dipenderà dall’ora in cui andrai: di notte, sarebbe illuminato da riflettori dal basso. Nel pomeriggio, sarebbe soleggiato, a meno che tu non sia andato in una giornata nuvolosa “, ha continuato. “Abbiamo imparato l’intera gamma di aspetti, in base all’ora del giorno e alle condizioni meteorologiche, da queste raccolte di foto non organizzate, in modo che tu possa esplorare l’intera gamma e spostarti simultaneamente sulla scena.”
Limitazioni tradizionali della visione artificiale
Poiché possono essere presenti così tante trame diverse che devono essere riprodotte, è difficile per la visione artificiale tradizionale rappresentare i luoghi in modo accurato attraverso le foto.
“Il mondo reale è così vario nel suo aspetto e ha diversi tipi di materiali: cose lucenti, acqua, strutture sottili”, ha detto Snavely.
Oltre a queste barriere, la visione artificiale tradizionale lotta anche con dati incoerenti. La funzione plenottica è come qualcosa appare da ogni possibile punto di vista nello spazio e nel tempo, ma per riprodurlo, sono necessarie centinaia di webcam sulla scena. Non solo, ma avrebbero dovuto registrare tutto il giorno e la notte. Questo potrebbe essere fatto, ma è un compito estremamente dispendioso in termini di risorse quando si guarda il numero di scene in cui questo metodo sarebbe richiesto.
Imparare da altre foto
Per aggirare questo problema, il team di ricercatori ha sviluppato il nuovo metodo.
“Potrebbe non esserci una foto scattata alle 16:00 da questo punto di vista esatto nel set di dati. Quindi dobbiamo imparare da una foto scattata alle 21:00 in un luogo e una foto scattata alle 4:03 da un altro luogo “, ha detto Snavely. “E non conosciamo la granularità di quando sono state scattate queste foto. Ma l’utilizzo del deep learning ci consente di dedurre come sarebbe stata la scena in un dato momento e luogo “.
I ricercatori hanno introdotto una nuova rappresentazione della scena chiamata Deep Multiplane Images per interpolare l’aspetto in quattro dimensioni, che sono 3D e cambiano nel tempo.
Secondo Snavely, “Usiamo la stessa idea inventata per creare effetti 3D in animazione 2D per creare effetti 3D in scene del mondo reale, per creare questa profonda immagine multistrato adattandola a tutte queste misurazioni disparate dalle foto dei turisti. È interessante che derivi da questa tecnica molto antica e classica utilizzata nell’animazione “.
Lo studio ha dimostrato che il modello addestrato potrebbe creare una scena con 50.000 immagini disponibili pubblicamente da vari siti. Il team ritiene che potrebbe avere implicazioni in molte aree, tra cui la ricerca sulla visione artificiale e il turismo virtuale.
“Puoi avere la sensazione di essere davvero lì”, ha detto Snavely. “Funziona sorprendentemente bene per una serie di scene.”
Il progetto ha ricevuto il sostegno dell’ex CEO e filantropo di Google Eric Schmidt, nonché di Wendt Schmidt.