Il capo dell’intelligenza artificiale di Meta, Yann LeCun, è noto per sostenere l’idea che i sistemi di apprendimento automatico (ML) possano imparare autonomamente a comprendere il mondo, con poca o nessuna guida umana. Il più recente modello ML di Meta, chiamato V-JEPA (Video Joint Embedding Predictive Architecture), rappresenta un passo avanti verso questa visione.
L’obiettivo di V-JEPA è imitare le capacità degli esseri umani e degli animali di prevedere e anticipare le interazioni tra gli oggetti. Questo avviene attraverso l’apprendimento di rappresentazioni astratte da video grezzi.
A differenza di molti altri modelli di intelligenza artificiale generativa, V-JEPA mostra la promessa di una nuova generazione di modelli non generativi che possono essere utilizzati in applicazioni del mondo reale.
V-JEPA utilizza un approccio chiamato “apprendimento autosupervisionato”, il che significa che non ha bisogno di dati etichettati manualmente. Durante l’allenamento, il modello cerca di prevedere il contenuto di parti mascherate di un video. Questo processo permette al modello di apprendere caratteristiche latenti che descrivono le interazioni tra gli oggetti nella scena.
Dopo essere stato addestrato su numerosi video, V-JEPA sviluppa un modello del mondo fisico che eccelle nel rilevare e comprendere le interazioni tra gli oggetti.
V-JEPA è il successore di I-JEPA, lanciato da Meta lo scorso anno. Mentre I-JEPA si concentrava sulle immagini, V-JEPA apprende dai video, consentendo al modello di apprendere rappresentazioni più coerenti.
V-JEPA è un modello di base che può essere configurato per attività specifiche. Può essere utilizzato come input per diversi altri modelli, rendendo l’architettura molto efficiente in termini di calcolo e risorse.
Secondo LeCun, V-JEPA è un passo verso una migliore comprensione del mondo da parte delle macchine, consentendo loro di ragionare e pianificare in modo più generale.
Sebbene V-JEPA sia già in grado di superare altri metodi nel ragionamento sui video per diversi secondi, i ricercatori di Meta vogliono espandere il suo orizzonte temporale e ridurre il divario tra V-JEPA e l’intelligenza naturale. Il modello è stato rilasciato sotto licenza Creative Commons NonCommercial per consentire ad altri ricercatori di esplorare e migliorare ulteriormente l’architettura.
Secondo LeCun, l’apprendimento autosupervisionato rappresenta la maggior parte dell’intelligenza, mentre l’apprendimento supervisionato e quello per rinforzo rappresentano solo una piccola parte.