Sui feed di TikTok e Instagram sta circolando da settimane un formato di contenuto generato da modelli di intelligenza artificiale che ha già ingannato milioni di utenti: brevi video di tre-cinque secondi che mostrano donne attraenti riprese sugli spalti di eventi sportivi — partite NBA, campionato di baseball coreano KBO, match di tennis, incontri di calcio — con l’estetica precisa di una telecamera da stadio che indugia casualmente tra il pubblico durante una diretta televisiva. Quei volti non appartengono a nessuna persona reale. Nessuno di quei soggetti era presente in quello stadio. L’intero contenuto — volto, espressione, abbigliamento, gradinate sullo sfondo, folla, sovrimpressioni grafiche in stile broadcast, persino il rumore di compressione digitale del segnale televisivo — è generato ex novo da un workflow che combina modelli di generazione di immagini come GPT Image e sistemi di animazione video come Kling 3.0.
Il fenomeno prende il nome di AI stadium broadcast e la sua capacità di diffondersi viralmente dipende da un aspetto tecnico preciso: non è la bellezza del soggetto a renderlo convincente, ma la fedeltà al codice visivo specifico di una ripresa televisiva sportiva. Chi produce questi contenuti non si limita a generare un volto fotorealistico su uno sfondo qualsiasi — quello risulterebbe immediatamente riconoscibile come prodotto artificiale per il suo eccesso di perfezione. Il segreto, documentato dettagliatamente da creator che hanno reso pubblici i propri prompt, sta nell’istruire esplicitamente il modello a riprodurre le imperfezioni tecniche di una trasmissione in diretta: motion blur sul fondo della scena, compressione dei dati visiva che degrada leggermente la nitidezza dei dettagli periferici, color grading specifico delle reti sportive, aberrazioni ottiche di un teleobiettivo da 120-150mm che comprime la prospettiva del campo riprendendo dall’alto delle gradinate, e una composizione che suggerisce la casualità — il soggetto non sta guardando in camera come in una foto, ma viene “sorpreso” da una telecamera che stava riprendendo qualcos’altro. Questi artefatti tecnici, normalmente considerati difetti in un contesto fotografico, sono qui comandati intenzionalmente perché il cervello umano li legge come segnali di autenticità: un video imperfetto sembra più reale di uno troppo nitido e perfetto.
Il workflow più diffuso prevede due fasi distinte. Nella prima, l’utente usa un generatore di immagini come GPT Image o Midjourney con un prompt costruito per simulare l’estetica broadcast — specificando il tipo di lente, l’atmosfera dello stadio, il tipo di evento sportivo, le condizioni di illuminazione, la presenza di artefatti di compressione e la posizione del soggetto nel frame. Il risultato è un’immagine statica in formato 16:9 che già sembra uno screenshot di una diretta. Nella seconda fase, quell’immagine statica viene passata a un sistema di generazione video image-to-video come Kling 3.0 — il modello sviluppato da Kuaishou, azienda cinese che nel corso degli ultimi mesi ha trasformato Kling da esperimento accademico a prodotto commerciale competitivo con Runway e Sora — con l’istruzione di introdurre micro-movimenti naturali: un respiro, un piccolo spostamento della testa, una leggera variazione dell’espressione. La chiave tecnica di questa fase è la stessa della prima: non troppa azione, altrimenti il modello deforma il volto. Solo movimenti minimali, quelli che una persona ferma e attenta alla partita farebbe involontariamente. Il risultato finale è una clip da tre a cinque secondi che supera il test visivo immediato anche per chi sa che l’IA esiste.
La ragione per cui questo specifico formato ha preso piede non è puramente tecnica ma è legata a una dinamica di credibilità contestuale. Una singola immagine generata da IA, isolata, ha spesso qualcosa che insospettisce: simmetria eccessiva, pelle troppo liscia, background genericamente coerente ma privo di specificità. Un video di pochi secondi inserito in un contesto riconoscibile e codificato — uno stadio, una diretta, una ripresa da telecamera fissa — attiva automaticamente negli spettatori un frame cognitivo di riconoscimento che anticipa il giudizio critico. Lo spettatore non parte dall’ipotesi “potrebbe essere falso?”, ma dalla categoria “ecco una telecamera che ha ripreso qualcuno sulle gradinate”, e valuta la credibilità all’interno di quella categoria invece di mettere in discussione la categoria stessa. È lo stesso meccanismo che rende i deepfake più efficaci quando sono inseriti in contesti televisivi familiari: il contesto presta la sua credibilità al contenuto.
Sul piano tecnico, la qualità raggiunta dai modelli di generazione video in questa specifica applicazione — soggetto statico in ambiente realistico con micro-movimenti — è significativamente più alta di quella nei formati che richiedono gesti complessi o cambi di scena, che restano il punto debole dei sistemi attuali. La nicchia del “soggetto quasi fermo in contesto noto” è quella in cui i modelli generativi di video sono già arrivati a un livello di realismo che supera la capacità di rilevamento umano a prima vista. L’impatto culturale di questo formato specifico — che costruisce visibilità e viralità su immagini di donne inesistenti presentate come presenti negli spalti — porta con sé una dimensione che va oltre il dibattito sulla qualità dei generatori: produce rappresentazioni del corpo femminile come oggetto di attenzione visiva senza che esista alcun consenso, da parte di una persona reale, a essere rappresentata. La facilità tecnica con cui questo avviene — un prompt, un’immagine, trenta secondi su Kling — è il dato più rilevante da un punto di vista sistemico: non si tratta di un’operazione sofisticata che richiede competenze specialistiche, ma di un workflow accessibile a chiunque abbia un abbonamento ai principali servizi di generazione.
