La 16a edizione della prestigiosa Conferenza Internazionale sulla Visione Artificiale (ICCV) è in programma dal 2 al 6 ottobre a Parigi, in Francia. Si prevede che l’evento avrà oltre 2.000 partecipanti in tutto il mondo e si concentrerà sulla ricerca all’avanguardia nel campo della visione artificiale attraverso presentazioni orali e poster, abbracciando diversi argomenti come l’elaborazione di immagini e video, il rilevamento di oggetti, la comprensione della scena, la stima del movimento, la visione 3D, l’apprendimento automatico. e applicazioni nella robotica e nella sanità. Anche Meta , uno dei pionieri del campo, partecipa all’evento con cinque dei suoi recenti articoli di ricerca sullo stesso argomento.

Make-An-Animation: generazione di movimento umano 3D condizionale al testo su larga scala. Questo articolo esplora la generazione del movimento umano guidato dal testo, un campo con ampie applicazioni nell’animazione e nella robotica. Sebbene gli sforzi precedenti che utilizzano modelli di diffusione abbiano migliorato la qualità del movimento, sono vincolati da dati di motion capture su piccola scala, con conseguenti prestazioni non ottimali per vari scenari del mondo reale. Gli autori propongono Make-An-Animation (MAA), un nuovo modello di generazione del movimento umano condizionato dal testo. MAA si distingue perché apprende da set di dati di immagini e testi su larga scala, consentendogli di cogliere pose e istruzioni più varie. Il modello viene addestrato in due fasi: inizialmente su un set di dati considerevole di coppie (testo, pseudo-posa statica) da set di dati immagine-testo e successivamente ottimizzato sui dati di motion capture, incorporando livelli aggiuntivi per la modellazione temporale. In contrasto con i modelli di diffusione convenzionali, MAA utilizza un’architettura U-Net simile ai recenti modelli di generazione da testo a video. Attraverso la valutazione umana, il modello dimostra prestazioni all’avanguardia in termini di realismo del movimento e allineamento con il testo di input nell’ambito della generazione del testo in movimento.

Scale-MAE: un codificatore automatico mascherato sensibile alla scala per l’apprendimento della rappresentazione geospaziale multiscala. Questo studio, in collaborazione con Berkley AI Research e Kitware , introduce Scale-MAE, un nuovo metodo di pre-addestramento per modelli di grandi dimensioni comunemente ottimizzati con immagini aumentate. Questi modelli spesso non considerano i dettagli specifici della scala, soprattutto in settori come il telerilevamento. Scale-MAE affronta questo problema apprendendo esplicitamente le relazioni tra i dati su scale diverse durante la pre-formazione. Maschera le immagini di input su scale note, determinando la scala di codifica posizionale ViT in base all’area terrestre coperta, non alla risoluzione dell’immagine. Le immagini mascherate vengono codificate utilizzando un backbone ViT standard e quindi decodificate attraverso un filtro passa banda, ricostruendo immagini a bassa/alta frequenza su scale inferiori/superiori. Incaricare la rete di ricostruire entrambe le frequenze si traduce in robuste rappresentazioni multiscala per immagini di telerilevamento, superando gli attuali modelli all’avanguardia.

NeRF-Det: Apprendimento della rappresentazione volumetrica sensibile alla geometria per il rilevamento di oggetti 3D multi-vista. NeRF-Det è un nuovo approccio al rilevamento 3D indoor utilizzando immagini RGB. A differenza dei metodi esistenti, sfrutta NeRF per stimare esplicitamente la geometria 3D, migliorando le prestazioni di rilevamento. Per superare la latenza di ottimizzazione di NeRF, i ricercatori hanno incorporato i priori della geometria per una migliore generalizzazione. Collegando il rilevamento e NeRF tramite un MLP condiviso, adattano in modo efficiente NeRF per il rilevamento, producendo rappresentazioni volumetriche basate sulla geometria. Il metodo supera i benchmark all’avanguardia su ScanNet e ARKITScenes. La formazione congiunta consente a NeRF-Det di generalizzare a nuove scene per il rilevamento di oggetti, la sintesi della vista e la stima della profondità, eliminando la necessità di ottimizzazione per scena.

La firma stabile: filigrane di radicamento nei modelli di diffusione latente. Questo documento affronta le preoccupazioni etiche associate alla modellazione generativa delle immagini proponendo una strategia attiva che integra la filigrana delle immagini e i modelli di diffusione latente (LDM). L’obiettivo è incorporare una filigrana invisibile in tutte le immagini generate per il rilevamento o l’identificazione futura. Il metodo affina rapidamente il decodificatore latente del generatore di immagini sulla base di una firma binaria. Un estrattore di filigrana pre-addestrato recupera la firma nascosta e un test statistico determina se l’immagine ha origine dal modello generativo. Lo studio valuta l’efficacia e la durabilità delle filigrane in varie attività di generazione, dimostrando la resilienza della firma stabile anche dopo le modifiche dell’immagine. L’approccio mira a mitigare i rischi associati all’autenticità delle immagini generate dall’intelligenza artificiale, in particolare per quanto riguarda questioni come falsi profondi e uso improprio del diritto d’autore, integrando perfettamente la filigrana nel processo di generazione degli LDM senza richiedere modifiche all’architettura. Il metodo si rivela compatibile con vari metodi generativi basati su LDM,

Modelli di diffusione come autocodificatori mascherati. La credenza convenzionale nel potere di generazione per acquisire dati visivi viene rivisitata alla luce dei modelli di diffusione denoising. Sebbene la formazione preliminare diretta con questi modelli non sia sufficiente, un approccio modificato, in cui i modelli di diffusione sono condizionati da input mascherati e inquadrati come Masked Autoencoder (DiffMAE), si rivela efficace. Questo metodo funge da solida inizializzazione per le attività a valle, eccelle nell’inpainting delle immagini e si estende facilmente ai video, raggiungendo una precisione di classificazione di alto livello. Vengono esplorati un confronto tra le scelte progettuali e un collegamento tra modelli di diffusione e autoencoder mascherati. Lo studio si chiede se la pre-formazione generativa possa effettivamente competere nei compiti di riconoscimento rispetto ad altri metodi di auto-supervisione. Il lavoro stabilisce connessioni tra Masked Autoencoder e modelli di diffusione, fornendo al contempo approfondimenti sull’efficacia della pre-formazione generativa nel campo della comprensione visiva.

Di Fantasy