TikTok ha recentemente lanciato Depth Anything, un importante passo avanti nell’ambito dell’estimazione della profondità monoculare (MDE). Questa innovazione si basa su un vasto set di dati, composto da 1,5 milioni di immagini etichettate e ben oltre 62 milioni di immagini non etichettate.
Grazie a questa straordinaria mole di dati utilizzati per l’addestramento, Depth Anything emerge come un modello MDE fondamentale dotato di avanzate capacità. Le sue caratteristiche principali comprendono la stima della profondità relativa zero-shot, superando MiDaS v3.1 (BEiTL-512), la stima della profondità metrica zero-shot con prestazioni superiori a ZoeDepth, e un’ottimizzazione e valutazione ottimali all’interno dei set di dati NYUv2 e KITTI.
Ciò che differenzia Depth Anything dagli approcci precedenti è la sua enfasi sulla semplicità e potenza del modello fondamentale, progettato per gestire immagini diverse in qualsiasi contesto senza introdurre nuovi moduli tecnici complessi.
Per raggiungere questo obiettivo, il set di dati è stato notevolmente ampliato attraverso l’uso di un motore di dati in grado di raccogliere ed etichettare automaticamente un vasto insieme di dati non etichettati, portando il totale a circa 62 milioni di immagini. Questa espansione del set di dati è fondamentale per ridurre gli errori di generalizzazione.
Nel processo di sviluppo di Depth Anything, sono state esplorate due strategie efficaci: l’obiettivo di ottimizzazione impegnativo, che costringe il modello a cercare attivamente ulteriore conoscenza visiva attraverso strumenti di aumento dei dati, e la supervisione ausiliaria, che garantisce che il modello erediti ricchi priori semantici da codificatori pre-addestrati, migliorando la sua capacità di interpretazione delle immagini.
Depth Anything è stato ampiamente testato su sei set di dati pubblici e su immagini casuali, dimostrando una notevole capacità di generalizzazione. Inoltre, ha stabilito nuovi parametri di riferimento nello stato dell’arte attraverso l’ottimizzazione delle informazioni sulla profondità metrica dai set di dati NYUv2 e KITTI, ottenendo risultati superiori anche in ControlNet condizionato in profondità.
Questo progresso rappresenta un passo avanti significativo nell’ambito dell’estimazione della profondità monoculare e apre nuove prospettive per l’uso di questa tecnologia in una varietà di applicazioni.