TikTok presenta Depth Anything: una svolta nell’estimazione della profondità monoculare MDE

TikTok ha recentemente lanciato Depth Anything, un importante passo avanti nell’ambito dell’estimazione della profondità monoculare (MDE). Questa innovazione si basa su un vasto set di dati, composto da 1,5 milioni di immagini etichettate e ben oltre 62 milioni di immagini non etichettate.

Grazie a questa straordinaria mole di dati utilizzati per l’addestramento, Depth Anything emerge come un modello MDE fondamentale dotato di avanzate capacità. Le sue caratteristiche principali comprendono la stima della profondità relativa zero-shot, superando MiDaS v3.1 (BEiTL-512), la stima della profondità metrica zero-shot con prestazioni superiori a ZoeDepth, e un’ottimizzazione e valutazione ottimali all’interno dei set di dati NYUv2 e KITTI.

Ciò che differenzia Depth Anything dagli approcci precedenti è la sua enfasi sulla semplicità e potenza del modello fondamentale, progettato per gestire immagini diverse in qualsiasi contesto senza introdurre nuovi moduli tecnici complessi.

Per raggiungere questo obiettivo, il set di dati è stato notevolmente ampliato attraverso l’uso di un motore di dati in grado di raccogliere ed etichettare automaticamente un vasto insieme di dati non etichettati, portando il totale a circa 62 milioni di immagini. Questa espansione del set di dati è fondamentale per ridurre gli errori di generalizzazione.

Nel processo di sviluppo di Depth Anything, sono state esplorate due strategie efficaci: l’obiettivo di ottimizzazione impegnativo, che costringe il modello a cercare attivamente ulteriore conoscenza visiva attraverso strumenti di aumento dei dati, e la supervisione ausiliaria, che garantisce che il modello erediti ricchi priori semantici da codificatori pre-addestrati, migliorando la sua capacità di interpretazione delle immagini.

Depth Anything è stato ampiamente testato su sei set di dati pubblici e su immagini casuali, dimostrando una notevole capacità di generalizzazione. Inoltre, ha stabilito nuovi parametri di riferimento nello stato dell’arte attraverso l’ottimizzazione delle informazioni sulla profondità metrica dai set di dati NYUv2 e KITTI, ottenendo risultati superiori anche in ControlNet condizionato in profondità.

Questo progresso rappresenta un passo avanti significativo nell’ambito dell’estimazione della profondità monoculare e apre nuove prospettive per l’uso di questa tecnologia in una varietà di applicazioni.

TikTok presenta Depth Anything: una svolta nell’estimazione della profondità monoculare MDE

Diihal

Di ihal

Articoli correlati

Luminar e Mercedes-Benz : Iris+ e lo Sterzo Automatico di Emergenza

Microsoft DragNUWA

Wondershare Virbo per tradurre rapidamente i propri video in diverse lingue

You missed

Apple e il progetto ACDC per entrare nel settore del Cloud Computing

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Daniel Gross lascia SSI di Ilya Sutskever ed entra nel SuperIntelligence Lab di Meta

Le aziende europee chiedono un rinvio dell’AI Act: preoccupazioni per la competitività e l’innovazione