È stato recentemente presentato un nuovo framework chiamato “WOLF” (WOrLd summarization Framework) che promette di migliorare la generazione automatica di didascalie per video complessi, come quelli riguardanti la guida autonoma e la robotica. Questo sistema è progettato per facilitare la comprensione e la ricerca di contenuti video attraverso l’uso di modelli educativi avanzati.
MarkTechPost ha pubblicato un articolo su WOLF, sviluppato da ricercatori di NVIDIA, UC Berkeley, MIT, UT Austin, Università di Toronto e Stanford. WOLF utilizza un metodo chiamato ‘Mixed Experts (MoE)’ e combina diversi modelli di intelligenza artificiale per generare didascalie di alta qualità.
Il framework si avvale di modelli linguistici di visione (VLM) come “CogAgent” e “GPT-4V” per le immagini, e modelli linguistici di grandi dimensioni (LLM) come “VILA-1.5” e “Gemini 1.5 Pro” per i video. Ecco come funziona:
- Divisione del Video: Il video viene suddiviso in immagini sequenziali, con due fotogrammi chiave campionati ogni secondo.
- Generazione delle Didascalie: Ogni fotogramma viene elaborato tramite un VLM basato su immagini per generare una didascalia. Queste didascalie sono arricchite con dettagli sulla scena e la posizione degli oggetti.
- Correlazione Temporale: Le didascalie dei fotogrammi chiave vengono utilizzate per generare didascalie per i fotogrammi successivi, tenendo conto della correlazione temporale tra di essi.
- Sintesi Finale: Le didascalie generate vengono poi aggregate e perfezionate utilizzando GPT-4 per produrre sottotitoli video finali.
Per valutare la qualità dei sottotitoli, i ricercatori hanno introdotto la metrica “CapScore”, che misura la somiglianza e la qualità delle didascalie rispetto a quelle reali. Sono stati creati set di dati annotati umanamente in tre aree: guida autonoma, scene generali e robotica.
I risultati mostrano che WOLF supera le tecnologie esistenti come VILA-1.5, CogAgent, Gemini 1.5 Pro e GPT-4V, con un miglioramento del 55,6% nella qualità dei sottotitoli e del 77,4% nella loro somiglianza nei video di guida autonoma.
WOLF si distingue per la sua capacità di catturare dettagli complessi, come segnali stradali e movimenti dei veicoli. I ricercatori affermano che questo approccio offre una comprensione completa dei video da più prospettive, particolarmente utile per scenari complessi come i video di guida.