Immagine AI

In un’epoca in cui i contenuti video dominano in modo apparentemente inarrestabile la scena digitale, emerge una curiosa e significativa tendenza nel campo dell’Intelligenza Artificiale: i modelli di AI, anche quelli progettati per l’analisi e la comprensione di contenuti multimediali, mostrano una chiara predilezione per la lettura del testo rispetto alla visione del video. Questo fenomeno, in un certo senso controintuitivo per chi osserva la rapida evoluzione della visione artificiale, rivela molto sulla natura intrinseca delle attuali architetture di AI e sulle sfide che ancora devono superare.

La questione non riguarda un gusto personale, ovviamente, ma l’efficacia e l’efficienza con cui questi modelli riescono a estrarre e processare informazioni. È sorprendente notare come, in diversi benchmark di “Visual Question Answering” (VQA), quando si maschera o si rimuove il contenuto video di riferimento, le prestazioni dei modelli di AI rimangano spesso elevate. Al contrario, quando a essere rimosso è l’elemento testuale, che sia la domanda o la risposta, l’accuratezza subisce un crollo ben più significativo. Questo suggerisce che, anche quando sono presenti tracce visive, i modelli fanno un affidamento critico e preponderante sull’informazione veicolata dalle parole.

Il motivo di questa “preferenza” è profondamente radicato nel modo in cui l’AI viene addestrata e nel tipo di dati che storicamente ha dominato la sua evoluzione. I Large Language Models (LLM) sono stati alimentati per anni con quantità colossali di testo scritto, rendendo l’elaborazione del linguaggio naturale (NLP) un campo estremamente maturo e robusto. Il testo è discreto, strutturato e relativamente facile da segmentare, indicizzare e analizzare in modo sequenziale. Il video, invece, è un flusso continuo e denso, un mosaico complesso che unisce immagini dinamiche, audio, e una temporalità intrinseca, richiedendo un carico computazionale immensamente superiore e sofisticate tecniche di fusione sensoriale per essere pienamente compreso.

In sostanza, per l’AI moderna, leggere un libro, o una sua trascrizione, è come sfogliare una serie ben organizzata di fatti e concetti con etichette chiare. Guardare un film, invece, è come cercare di distillare la trama complessa, le sfumature emotive e le sottigliezze visive da un miliardo di pixel in movimento ogni secondo. Sebbene siano stati fatti progressi enormi nella Computer Vision, la vera sfida per i modelli multimodali non è solo “vedere” il video, ma integrarlo semanticamente con la narrazione testuale circostante e la conoscenza preesistente in modo coerente e significativo.

Questa constatazione ha implicazioni immediate per lo sviluppo futuro. Suggerisce che, se vogliamo che l’AI diventi veramente brava a “guardare” e a comprendere i video con l’intuizione umana, non possiamo semplicemente affidarci a modelli che usano il testo come stampella principale. Sarà necessario sviluppare architetture che trattino l’input visivo come una fonte di informazione primaria e ugualmente potente, superando l’attuale, benché efficace, dipendenza dalla forma scritta. Finché questo equilibrio non verrà raggiunto, l’AI continuerà a dimostrare che, nel dubbio tra il film e il suo manoscritto, la chiarezza e la concisione del testo restano il suo formato preferito.

Di Fantasy