Meta, in concomitanza con il rilascio di “Sora” di OpenAI, ha introdotto ieri un nuovo modello di intelligenza artificiale chiamato Video Joint Embedding Predictive Architecture (V-JEPA). Questo modello, seguendo la visione di Yann LeCun, vicepresidente e capo scienziato dell’intelligenza artificiale di Meta, è progettato per migliorare la comprensione del mondo da parte delle macchine, analizzando le interazioni tra gli oggetti nei video. Si tratta di un avanzamento rispetto alla quinta iterazione di I-JEPA, che si focalizzava sulle rappresentazioni astratte delle immagini e sull’estensione ai video, incorporando le dinamiche temporali oltre alle informazioni spaziali.
V-JEPA è in grado di prevedere le parti mancanti dei video senza dover ricreare ogni dettaglio, apprendendo da video non etichettati e senza l’esigenza di dati classificati da esseri umani. Questo approccio rende il modello più efficiente e meno dispendioso in termini di risorse rispetto ai suoi predecessori. In fase di sviluppo, V-JEPA è stato addestrato mascherando ampie sezioni di video, costringendolo a fare ipotesi basate su un contesto limitato, migliorando così la sua capacità di comprendere scenari complessi.
I test hanno mostrato che V-JEPA supera altri modelli di analisi video, utilizzando una frazione dei dati normalmente richiesti. Questa efficienza è vista come un passo avanti significativo nell’intelligenza artificiale, poiché permette al modello di adattarsi a vari compiti senza una riqualificazione estensiva.
Meta prevede di espandere le capacità di V-JEPA, inclusa l’analisi del suono e il miglioramento nella comprensione di video più lunghi, sostenendo il suo obiettivo più ampio di far progredire l’intelligenza artificiale per eseguire compiti più simili a quelli umani. Il modello è disponibile sotto una licenza Creative Commons NonCommercial, permettendo ai ricercatori di esplorare e sviluppare ulteriormente questa tecnologia.