Meta ha recentemente annunciato il lancio di CoTracker3, un nuovo modello di tracciamento video che punta a migliorare l’accuratezza utilizzando la pseudo etichettatura dei video reali. CoTracker3 rappresenta un aggiornamento della serie di modelli CoTracker, sfruttando tecnologie avanzate di intelligenza artificiale per affrontare situazioni complesse in cui i punti tracciati possono uscire dal campo visivo o essere temporaneamente nascosti.
Il modello introduce un approccio di apprendimento semi-supervisionato, noto come “pseudo etichettatura”, che permette al sistema di auto-etichettare parti dei dati. Questa tecnica consente di migliorare sia la qualità che la quantità delle informazioni utilizzate per l’addestramento, senza la necessità di set di dati completamente annotati. Questo approccio innovativo permette a CoTracker3 di superare i tracker tradizionali, grazie a un protocollo di addestramento semplificato che sfrutta migliaia di video, aumentando così la capacità di gestire occlusioni meglio di altri modelli, soprattutto in situazioni offline.
CoTracker3 è stato progettato per essere utilizzato come componente fondamentale in diverse applicazioni che richiedono la stima del movimento, come il tracciamento 3D, la generazione di video controllati e la ricostruzione 3D dinamica. Inoltre, ha dimostrato prestazioni superiori rispetto allo stato dell’arte su benchmark come TAP-Vid, grazie alla sua architettura ottimizzata che elimina componenti non necessari e combina idee di tracciamento di recente sviluppo.
Il modello è disponibile per gli sviluppatori e i ricercatori sia su piattaforme online che offline, ed è accessibile attraverso Hugging Face. CoTracker3 può essere applicato in diversi settori, come la realtà aumentata, la robotica e l’analisi sportiva, dove è cruciale tracciare il movimento degli oggetti con precisione. Meta ha anche reso disponibili il modello e le risorse correlate con una licenza A-NC, per favorire ulteriori ricerche e sviluppi.
Oltre a CoTracker3, Meta ha anche introdotto la Video Joint Embedding Predictive Architecture (V-JEPA), un modello che prevede le parti mancanti dei video senza dover ricreare ogni dettaglio. V-JEPA è in grado di imparare dai video non etichettati, migliorando così la comprensione del contesto da parte delle macchine e analizzando le interazioni tra oggetti nei video. Questa innovazione punta a rafforzare ulteriormente le capacità dei sistemi di intelligenza artificiale nel comprendere il mondo reale.
Con CoTracker3, Meta continua a spingere i limiti della tecnologia di tracciamento video, offrendo strumenti avanzati per migliorare l’efficienza e l’accuratezza in applicazioni complesse. Grazie a queste innovazioni, l’azienda contribuisce a rendere più accessibili tecnologie di tracciamento avanzate, facilitando la ricerca e l’implementazione di soluzioni AI in ambiti diversi.