Video AI: arriva V-JEPA di Meta

DiFantasy

Feb 16, 2024

Meta, in concomitanza con il rilascio di “Sora” di OpenAI, ha introdotto ieri un nuovo modello di intelligenza artificiale chiamato Video Joint Embedding Predictive Architecture (V-JEPA). Questo modello, seguendo la visione di Yann LeCun, vicepresidente e capo scienziato dell’intelligenza artificiale di Meta, è progettato per migliorare la comprensione del mondo da parte delle macchine, analizzando le interazioni tra gli oggetti nei video. Si tratta di un avanzamento rispetto alla quinta iterazione di I-JEPA, che si focalizzava sulle rappresentazioni astratte delle immagini e sull’estensione ai video, incorporando le dinamiche temporali oltre alle informazioni spaziali.

V-JEPA è in grado di prevedere le parti mancanti dei video senza dover ricreare ogni dettaglio, apprendendo da video non etichettati e senza l’esigenza di dati classificati da esseri umani. Questo approccio rende il modello più efficiente e meno dispendioso in termini di risorse rispetto ai suoi predecessori. In fase di sviluppo, V-JEPA è stato addestrato mascherando ampie sezioni di video, costringendolo a fare ipotesi basate su un contesto limitato, migliorando così la sua capacità di comprendere scenari complessi.

I test hanno mostrato che V-JEPA supera altri modelli di analisi video, utilizzando una frazione dei dati normalmente richiesti. Questa efficienza è vista come un passo avanti significativo nell’intelligenza artificiale, poiché permette al modello di adattarsi a vari compiti senza una riqualificazione estensiva.

Meta prevede di espandere le capacità di V-JEPA, inclusa l’analisi del suono e il miglioramento nella comprensione di video più lunghi, sostenendo il suo obiettivo più ampio di far progredire l’intelligenza artificiale per eseguire compiti più simili a quelli umani. Il modello è disponibile sotto una licenza Creative Commons NonCommercial, permettendo ai ricercatori di esplorare e sviluppare ulteriormente questa tecnologia.

Video AI: arriva V-JEPA di Meta

DiFantasy

Di Fantasy

Articoli correlati

Project Genie di Google DeepMind: il modello di mondo che crea universi interattivi da testo e immagini

L’integrazione di Gemini in Google Maps per la navigazione vocale e conversazionale a piedi e in bicicletta

BubBleBee, l’intelligenza artificiale che impara lo slang dei giovani

Ultimi Post

Project Genie di Google DeepMind: il modello di mondo che crea universi interattivi da testo e immagini

L’integrazione di Gemini in Google Maps per la navigazione vocale e conversazionale a piedi e in bicicletta

BubBleBee, l’intelligenza artificiale che impara lo slang dei giovani

Sassari usa l’intelligenza artificiale per contrastare l’abbandono dei rifiuti