Immagine AI

Negli ultimi anni, l’intelligenza artificiale generativa ha compiuto progressi impressionanti nell’elaborazione di testo, immagini e persino video, tanto da rendere possibile generare contenuti visivi estremamente realistici con strumenti come Sora, il modello di OpenAI che produce video a partire da descrizioni testuali. Tuttavia, nonostante questi progressi, emerge un problema significativo quando si prova a utilizzare i più avanzati chatbot AI per distinguere automaticamente tra video autentici e video generati artificialmente. Secondo un test condotto da NewsGuard e riportato recentemente da La Repubblica, Grok di xAI, ChatGPT di OpenAI e Gemini di Google mostrano serie difficoltà a identificare correttamente come generati dall’IA i video creati con Sora, soprattutto quando mancano segnali espliciti come un watermark o un logo identificativo del generatore.

I risultati dei test sono impressionanti ma anche preoccupanti. Nei video privi di watermark, Grok ha erroneamente riconosciuto come “reali” il 95 per cento dei video generati, ChatGPT ha commesso lo stesso errore nel 92,5 per cento dei casi, mentre Gemini ha fallito nell’identificazione nel 78 per cento dei casi. Questo significa che tre tra i sistemi di intelligenza artificiale più diffusi oggi non sono in grado di riconoscere contenuti video artificiali in gran parte dei casi, almeno secondo questi test specifici. Il watermark, inserito come segnale digitale visibile per distinguere contenuti generati dall’IA da quelli reali, emerge come un elemento cruciale per aiutare i sistemi a non cadere vittima di video ingannevoli, ma nella maggior parte delle situazioni reali questo tipo di segnali non è sempre presente.

Ma perché accade che i chatbot non riconoscano questi video generati artificialmente? La risposta risiede nelle limitazioni intrinseche dei modelli di intelligenza artificiale generativa così come sono progettati oggi. La maggior parte dei modelli come ChatGPT o Gemini è ottimizzata per elaborare testo e, nelle versioni multimodali, immagini statiche, ma non è stata progettata specificamente per “guardare” e comprendere video nello stesso modo in cui un essere umano percepisce sequenze visive in movimento. Anche l’elaborazione visiva avanzata che alcune versioni di modelli includono si concentra principalmente su singoli fotogrammi piuttosto che su sequenze temporali complesse, e questo può ridurre drasticamente la capacità di cogliere segnali sottili che distinguono un video autentico da uno generato artificialmente, soprattutto quando non c’è una chiara etichetta di generazione.

Questa situazione getta luce su una delle grandi sfide di questo periodo in cui i video generativi stanno diventando sempre più realistici: la difficoltà a garantire affidabilità e autenticità digitale. La tecnologia di generazione video come quella di Sora può creare contenuti estremamente convincenti, utilizzando volti, ambientazioni e movimenti credibili, fino al punto da ingannare sia l’occhio umano sia gli strumenti di riconoscimento automatizzato. E, come mostrano le analisi recenti sulla natura dei deepfake, la manipolazione di immagini e video con l’intelligenza artificiale ha potenzialità di diffusione rapide e problematiche sociali rilevanti, perché può essere utilizzata per diffondere disinformazione o alterare percezioni pubbliche su eventi e persone.

Il fatto che i chatbot incapaci di riconoscere correttamente video falsi sollevi questioni importanti non riguarda solo l’efficacia tecnologica, ma anche l’etica e il contesto sociale in cui questi strumenti vengono utilizzati. Viviamo in un’epoca in cui i contenuti digitali possono circolare globalmente in pochi secondi e avere un impatto sulla reputazione di individui e organizzazioni o influenzare opinioni politiche e sociali. Se gli strumenti AI che molte aziende e utenti utilizzano quotidianamente per interpretare e analizzare informazioni non sono in grado di distinguere tra vero e falso, si apre uno spazio potenzialmente enorme per l’abuso dei contenuti generativi, senza che esistano meccanismi affidabili per controllare la loro autenticità.

La debolezza dei sistemi AI nel riconoscere contenuti video generati artificialmente evidenzia anche la necessità di sviluppare strumenti di rilevazione più sofisticati, che non si limitino a cercare watermark o segnali espliciti, ma siano in grado di analizzare dinamiche visive, artefatti e pattern che distinguono video reali da video artificiali. Recenti ricerche nel campo della visione artificiale, ad esempio, hanno proposto modelli addestrati specificamente per la rilevazione di artefatti nei video generati elettronicamente, o metodi che combinano l’analisi spaziale e temporale dei fotogrammi per cercare anomalie che non risultano naturali a occhio umano. Tuttavia, questi strumenti avanzati non fanno ancora parte della dotazione standard dei chatbot generici, e la loro integrazione nei flussi di lavoro quotidiani rimane una sfida aperta.

Di Fantasy