Immagine AI

Il mondo dell’intelligenza artificiale ha recentemente assistito a un notevole balzo in avanti nel campo della percezione e del ragionamento multimodale, un avanzamento sancito dalla prestigiosa vittoria di un team di ricerca sudcoreano alla International Computer Vision Conference (ICCV) del 2025. L’Istituto Coreano Superiore di Scienza e Tecnologia (KAIST), sotto la guida del professor Seong-Eui Yoon del Dipartimento di Informatica, in collaborazione con il team della professoressa Jun-Hyeok Noh dell’Università Ewha Womans, ha conquistato il primo posto nella sezione dedicata alle domande e risposte basate su prove video, nell’ambito della Perception Test Challenge ospitata da Google DeepMind.

Questa competizione, dotata di un montepremi totale di 50.000 euro, rappresenta la massima arena per la valutazione delle capacità cognitive dell’IA. L’obiettivo primario del Perception Test è mettere alla prova l’intelligenza artificiale multimodale, ovvero sistemi capaci di comprendere e integrare in modo olistico dati complessi provenienti da video, audio e testo. La sfida non si limita a un’analisi superficiale, ma mira specificamente a misurare l’abilità dell’IA di superare i cosiddetti pregiudizi linguistici e di emettere giudizi di ragionamento critico basati sull’evidenza visiva concreta, estrapolata da scenari reali.

L’innovazione vincente del KAIST risiede in un approccio radicalmente nuovo alla comprensione dei contenuti video. I metodi preesistenti tendevano ad analizzare l’intero flusso video, spesso sommersi da una mole di dati non essenziali. Il team del KAIST ha invece sviluppato una tecnica che conferisce all’intelligenza artificiale la capacità di discernere e identificare autonomamente le “scene chiave”—o “momenti scatenanti”—assolutamente cruciali per formulare una risposta corretta a una determinata domanda. Questa focalizzazione selettiva consente all’IA di concentrare le proprie risorse di calcolo esattamente dove l’informazione rilevante si manifesta. Il framework sviluppato per realizzare questa prodezza è stato denominato CORTEX, acronimo che sta per Chain-of-Reasoning for Trigger Moment Extraction (Catena di Ragionamento per l’Estrazione del Momento Scatenante). CORTEX è strutturato come un sofisticato sistema a tre modelli operanti in sequenza, ciascuno con una funzione ben definita.

Nella prima fase, l’intelligenza artificiale inferenziale, identificata nello specifico in Gemini 2.5 Pro, viene impiegata per effettuare un ragionamento a catena (Chain-of-Thought) che determina non solo la risposta, ma soprattutto quale preciso momento del video sia necessario osservare per verificarla. Questo processo logico identifica i candidati ideali per il “momento di attivazione”. Successivamente, il secondo modello, un sistema di localizzazione degli oggetti (chiamato Molmo-7B), entra in gioco per identificare le coordinate spaziali precise di oggetti, persone o veicoli all’interno della scena selezionata.

Infine, il terzo e ultimo modello, lo strumento di tracking SAM2, si dedica a una meticolosa riduzione degli errori, monitorando i movimenti degli oggetti tracciati nei periodi di tempo immediatamente precedenti e successivi alla scena cruciale. È proprio grazie a questo metodo meticoloso di “catturare accuratamente una scena chiave e tracciare la base per la risposta corretta” che il sistema riesce a superare problemi comuni come errori di valutazione o l’oscuramento degli elementi all’inizio del video, garantendo un’analisi ancorata alla realtà visiva.

La superiorità del metodo CORTEX è stata dimostrata in una gara che ha visto la partecipazione di ventitré squadre di alto livello. L’applicazione SGVR del KAIST ha conseguito un punteggio di $0.4968$ nella metrica HOTA (Higher Order Tracking Accuracy), un risultato che ha lasciato ben distanziata la Columbia University, arrivata seconda con $0.4304$. Ancora più impressionante è il confronto con il passato: il punteggio vincente del KAIST è quasi il doppio di quello ottenuto dalla squadra vincitrice dell’anno precedente, che si era fermata a $0.2704$. Questo salto quantico nei risultati, presentato alla conferenza ICCV 2025 il 19 ottobre, non solo celebra il successo di un singolo team, ma segna un punto di svolta fondamentale per lo sviluppo di intelligenze artificiali multimodali dotate di una comprensione del mondo video più profonda, logica e veritiera.

Di Fantasy