La presentazione di Kling 3.0 segna un passaggio rilevante nell’evoluzione della generazione video basata su intelligenza artificiale. Il modello sviluppato da Kuaishou non si limita più a produrre clip a partire da prompt testuali, ma si propone come un sistema creativo completo e nativamente multimodale, capace di elaborare testo, immagini, video e audio all’interno di un unico motore. È un cambiamento di prospettiva che sposta l’AI dal ruolo di semplice strumento di creazione a quello di partner in grado di comprendere la direzione narrativa e le intenzioni registiche di chi crea contenuti.
Alla base di questa evoluzione c’è l’idea che la produzione video non sia solo una sequenza di output generati, ma un processo coerente che coinvolge personaggi, scene, ritmo, voce e movimento. Kling 3.0 nasce proprio con questo obiettivo: offrire un ambiente in cui singoli creatori e studi professionali possano lavorare come veri registi, mantenendo controllo e continuità lungo tutta la narrazione. Il modello migliora in modo evidente la coerenza dei personaggi e degli oggetti, il controllo delle inquadrature e l’espressività vocale, rendendo possibile la realizzazione di video multi-shot fino a quindici secondi che riflettono con maggiore precisione l’intento creativo originale.
Il cuore tecnologico di questa generazione è Kling VIDEO 3.0 Omni, un framework che unifica l’apprendimento multimodale e tratta immagini, video ed elementi testuali come parti di un unico sistema di prompt. Questo approccio consente una generazione nativa e simultanea di immagini e audio, superando il modello a fasi separate che ha caratterizzato molte soluzioni precedenti. Il risultato è un output più fluido, in cui la componente visiva e quella sonora sono sincronizzate fin dall’origine, con una struttura narrativa più solida e una migliore interpretazione semantica delle richieste.
Uno degli aspetti più interessanti di Kling 3.0 è la capacità di gestire la continuità narrativa anche su produzioni più lunghe e complesse. Un esempio citato dagli sviluppatori è quello del produttore Dave Clark, che ha utilizzato il modello per realizzare un cortometraggio di quasi sei minuti, rendendo pubblico l’intero processo creativo. Questo dimostra come il sistema non sia pensato solo per clip brevi o sperimentali, ma possa essere esteso a progetti con una vera struttura cinematografica.
A rafforzare questa visione contribuiscono strumenti come All-in-One Reference 3.0, che permettono al modello di apprendere e memorizzare le caratteristiche visive di personaggi, oggetti e ambienti a partire da immagini multi-angolari o filmati di riferimento. In questo modo, anche durante cambi di scena, transizioni o riprese complesse, gli elementi rimangono coerenti e riconoscibili, senza sfocature o variazioni indesiderate. La gestione individuale dei singoli elementi, persino in scene affollate, consente un livello di precisione che finora era difficile ottenere con sistemi di generazione automatica.
Un ulteriore passo avanti riguarda l’integrazione della voce. Con Elements 3.0, Kling è in grado di estrarre non solo l’aspetto visivo ma anche la voce di un personaggio a partire da brevi clip, creando risorse complete che includono volto e timbro vocale. Questo permette di riutilizzare lo stesso personaggio in contesti diversi mantenendo coerenza visiva, lip-sync accurato ed espressione emotiva credibile, un aspetto fondamentale per chi punta a raccontare storie e non solo a produrre immagini in movimento.
Il controllo registico viene ulteriormente affinato con Storyboard Narration 3.0, che introduce una gestione più precisa delle singole inquadrature. La possibilità di definire durata, composizione, angolazione, movimento della camera e progressione narrativa di ogni scena consente di costruire video multi-inquadratura con una struttura più matura, superando i limiti delle generazioni brevi e poco controllabili delle versioni precedenti. In questo contesto, l’AI diventa uno strumento che traduce l’intenzione creativa in una sequenza visiva coerente, piuttosto che un generatore casuale di clip.
Accanto a queste innovazioni, Kling 3.0 introduce anche la tecnologia di controllo del movimento 3D denominata 3DiMo. Questo sistema trasferisce i movimenti reali da video di guida ai personaggi generati, mantenendo la coerenza del movimento anche quando cambia il punto di vista della telecamera. A differenza degli approcci basati su pose 2D o su modelli 3D rigidi, 3DiMo adotta una rappresentazione del movimento indipendente dal punto di vista, consentendo una maggiore flessibilità narrativa e una resa visiva più naturale. L’addestramento con dati multi-vista e telecamere in movimento permette al modello di comprendere il movimento nello spazio in modo più profondo, riducendo la dipendenza da modelli esterni e migliorando la qualità complessiva della scena.
