In Cina è emersa un’intelligenza artificiale (AI) che genera video, presentandosi come rivale di “Sora”. Si tratta di un modello capace di creare video in 1080P di 16 secondi con un solo clic, utilizzando una tecnologia simile a quella di Sora.
L’Università di Tsinghua e la società cinese Shengshu AI hanno presentato questa creazione chiamata “Vidu” al Forum Zhongguancun a Pechino, come riportato dall’agenzia di stampa Xinhua.
Vidu è stato mostrato in una dimostrazione dal vivo, dove è stato evidenziato che può creare scene con dettagli complessi, come effetti di luce e ombra realistici e espressioni facciali delicate, seguendo le leggi fisiche. Inoltre, il design si basa su una profonda comprensione degli elementi culturali cinesi, permettendo la creazione di immagini simboliche della Cina, come panda e draghi mitici.
Il modello di Vidu si basa sull’architettura del modello di trasformazione della visione chiamata “Universal Vision Transformer (U-ViT)”, integrando il modello di diffusione e l’architettura del trasformatore, simile a quanto fatto da OpenAI con la sua architettura “Vision Transformer (ViT)”.
Zhu Jun, vice direttore dell’Istituto di ricerca sull’intelligenza artificiale dell’Università di Tsinghua e capo scienziato presso Shengshu AI, ha dichiarato che il lancio di Sora ha ispirato ulteriormente la ricerca verso la direzione tecnologica di Vidu.
È stato anche sottolineato che l’architettura del trasformatore di visione, alla base di U-ViT, è stata proposta prima di Sora, ma è Google DeepMind a introdurla per la prima volta in un articolo del 2021.
Questo annuncio è arrivato circa due mesi dopo il rilascio di Sora, avvenuto il 15 febbraio, suscitando un fermento nello sviluppo delle tecnologie correlate in Cina. Tuttavia, la reazione a Vidu non è stata molto positiva, con molti che ritengono che sia ancora lontano da raggiungere Sora, e alcuni addirittura sottolineando che sembra una ‘raccoglitrice di ciliegie’, ironizzando sul presunto plagio dei risultati della ricerca di Open AI.