Dal 19 al 22 giugno si terrà a Vancouver, in Canada, l’edizione 2023 di CVPR, la prestigiosa conferenza annuale dedicata alla computer vision e al pattern recognition. Google Research sarà uno dei principali sponsor dell’evento, presentando ben 90 articoli su una vasta gamma di argomenti, tra cui il riconoscimento delle immagini, la visione 3D e l’apprendimento automatico. Oltre a Google, importanti istituti come il MIT e l’UCLA parteciperanno a questa edizione. CVPR ha ricevuto ben 9.155 registrazioni, ma solo il 25,78% di queste (2.360) sono state accettate. Ora diamo uno sguardo ai migliori articoli presentati durante la conferenza.
MobileNeRF: sfruttare la pipeline di rasterizzazione poligonale per un efficiente rendering del campo neurale su dispositivi mobili. Questo articolo, scritto da un team di ricercatori di Google Research, Simon Fraser University e University of Toronto, introduce una nuova rappresentazione NeRF che utilizza poligoni testurizzati per una sintesi delle immagini più efficiente. Sfruttando le tecniche di rendering tradizionali e un MLP dipendente dalla vista, il sistema elabora le caratteristiche dei poligoni ottenute tramite uno z-buffer, ottenendo così un rendering rapido su diverse piattaforme, compresi i telefoni cellulari.
DynIBaR: rendering basato su immagini dinamiche neurali. Questo articolo presenta un nuovo metodo per generare viste realistiche da video monoculari di scene dinamiche. Le tecniche esistenti basate su NeRF (Neural Radiance Fields) dinamici hanno difficoltà a gestire video lunghi e movimenti complessi della telecamera, ottenendo risultati sfocati o imprecisi. Sviluppato da Cornell Tech e Google Research, il nuovo approccio supera tali limitazioni utilizzando un framework di rendering volumetrico basato su immagini, che tiene conto di viste vicine e informazioni sul movimento. Il sistema ottiene risultati superiori su set di dati di scene dinamiche e si dimostra efficace in scenari reali con movimenti complessi della telecamera e oggetti impegnativi, dove i metodi precedenti falliscono.
DreamBooth: perfezionamento dei modelli di diffusione da testo a immagine per una generazione guidata dal soggetto. I modelli di testo-immagine di grandi dimensioni presentano limitazioni nell’imitare soggetti da un insieme di riferimento e generare interpretazioni diverse. Per risolvere questo problema, Google Research e la Boston University presentano un approccio personalizzato. Allenando il modello con alcune immagini del soggetto, il sistema impara ad associare un identificatore univoco al soggetto stesso, consentendo così la sintesi di immagini fotorealistiche in contesti diversi. Questa tecnica mantiene le caratteristiche chiave durante l’esplorazione di attività come la ricontestualizzazione, la sintesi delle viste e il rendering artistico. Vengono forniti un nuovo set di dati e un protocollo di valutazione per la generazione guidata dal soggetto. Puoi dare un’occhiata al loro repository GitHub qui.
MaskSketch: generazione di immagini mascherate guidate da strutture non accoppiate. Aggiungendo ulteriori innovazioni alla lista, c’è un nuovo metodo chiamato MaskSketch per la generazione di immagini che consente il condizionamento spaziale del risultato di generazione utilizzando uno schizzo guida come segnale aggiuntivo. MaskSketch si basa su un trasformatore generativo mascherato preaddestrato e funziona con schizzi di diversi livelli di astrazione. Sfruttando le mappe di auto-attenzione intermedie, MaskSketch codifica le informazioni strutturali importanti e consente una generazione guidata dalla struttura. Questo metodo raggiunge un alto livello di realismo e fedeltà dell’immagine, superando i metodi di punta per la traduzione da schizzo a immagine e gli approcci di traduzione da immagine a immagine non accoppiati utilizzando set di dati di riferimento.
MAGVIT: trasformatore video generativo mascherato. La Carnegie Mellon University, Google Research e il Georgia Institute of Technology hanno introdotto MAGVIT, un unico modello progettato per gestire varie attività di sintesi video. Esso utilizza un tokenizer 3D per convertire i video in token visivi spazio-temporali e impiega la modellazione di token video mascherati per un apprendimento multi-task efficiente. I risultati dimostrano che MAGVIT supera gli approcci di punta, ottenendo il punteggio FVD migliore pubblicato su tre benchmark di generazione video, tra cui Kinetics-600. Inoltre, supera significativamente i metodi esistenti in termini di tempo di inferenza e supporta dieci diverse attività di generazione generalizzando su diversi domini visivi.
Imagen Editor e EditBench: avanzamento e valutazione dell’Inpainting di immagini guidato da testo. Google ha presentato Imagen Editor, un modello di diffusione a cascata che affronta la sfida dell’editing di immagini guidato dal testo. Ottimizzando Imagen per l’inpainting di immagini guidato dal testo e utilizzando rilevatori di oggetti per generare maschere di inpainting, il modello garantisce che le modifiche siano allineate con le richieste del testo. Conserva anche i dettagli fini condizionando l’immagine ad alta risoluzione. La valutazione tramite EditBench, un punto di riferimento per l’inpainting di immagini guidato da testo, mostra che il mascheramento degli oggetti durante l’addestramento migliora l’allineamento tra testo e immagine. Imagen Editor supera DALL-E 2 e Stable Diffusion e si distingue nel rendering degli oggetti e negli attributi di materiale/colore/dimensione rispetto agli attributi di conteggio/forma.
RUST: rappresentazioni di scene neurali latenti da immagini non posate. Un altro articolo presentato dal team di Google introduce RUST (Really Unposed Scene Representation Transformer), un approccio senza pose che utilizza solo immagini RGB. Allenando un codificatore e un decodificatore di pose, RUST consente una nuova sintesi di viste con significative trasformazioni della fotocamera e accurate letture della posa. Sorprendentemente, RUST raggiunge una qualità simile ai metodi che richiedono pose perfette, consentendo così l’addestramento su larga scala delle rappresentazioni neurali della scena.
REVEAL: pre-formazione sul linguaggio visivo aumentata con recupero con memoria della conoscenza multimodale multi-sorgente. Questo articolo presenta REVEAL, un modello di linguaggio visivo arricchito dal recupero end-to-end. REVEAL codifica la conoscenza del mondo in una memoria su larga scala e la recupera per rispondere a domande che richiedono una grande quantità di conoscenza. Il sistema è composto da una memoria, un codificatore, un retriever e un generatore. La memoria codifica diverse fonti di conoscenza multimodale e il retriever trova le voci rilevanti. Il generatore combina la conoscenza recuperata con le query di input per generare output. REVEAL raggiunge prestazioni di punta nella risposta visiva alle domande e nella generazione di didascalie per le immagini, utilizzando diverse fonti di conoscenza multimodale. L’articolo è stato presentato da membri dell’Università della California, Los Angeles e di Google Research.
Distillazione di modelli di diffusione guidata. I modelli di diffusione guidata senza classificatore, ampiamente utilizzati per la generazione di immagini, soffrono di inefficienza computazionale. Google, Stability AI e LMU Munich propongono di distillare tali modelli in modelli di campionamento più veloci. Il modello distillato corrisponde all’output di modelli condizionali e incondizionati combinati, ottenendo una qualità dell’immagine comparabile con meno passaggi di campionamento. Questo approccio è fino a 256 volte più veloce per i modelli basati sullo spazio dei pixel e almeno 10 volte più veloce per i modelli basati sullo spazio latente. Si dimostra anche efficace nell’editing e nell’inpainting di immagini guidato da testo, richiedendo solo 2-4 passaggi di riduzione del rumore per ottenere risultati di alta qualità.