I ricercatori della Tsinghua University e di Zhipu AI hanno lanciato CogVideoX, un innovativo modello open source per la generazione di video che potrebbe cambiare radicalmente il panorama dell’intelligenza artificiale, sfidando le soluzioni di startup come Runway, Luma AI e Pika Labs. Dettagliato in un recente articolo di arXiv, CogVideoX offre agli sviluppatori di tutto il mondo la possibilità di creare video avanzati a partire da descrizioni testuali.
CogVideoX può generare video di alta qualità, fino a sei secondi di durata, partendo da semplici prompt testuali. Rispetto ai modelli concorrenti come VideoCrafter-2.0 e OpenSora, CogVideoX si distingue per prestazioni superiori in diversi parametri di benchmark.
La versione avanzata del modello, CogVideoX-5B, dispone di 5 miliardi di parametri e produce video con risoluzione 720×480 a 8 frame al secondo. Anche se non raggiunge le specifiche di alcuni sistemi proprietari, la vera innovazione di CogVideoX sta nella sua natura open source.
Il team di Tsinghua ha reso pubblici i pesi e il codice del modello, democratizzando così una tecnologia precedentemente accessibile solo a grandi aziende tecnologiche. Questo passo potrebbe accelerare i progressi nella generazione di video AI grazie al contributo della comunità globale di sviluppatori.
CogVideoX si avvale di innovazioni tecniche come un Variational Autoencoder (VAE) 3D per la compressione dei video e un “trasformatore esperto” per migliorare l’allineamento tra testo e video. Questi avanzamenti migliorano notevolmente la precisione nella generazione di video a partire da descrizioni testuali.
Nonostante il potenziale rivoluzionario di CogVideoX, la sua disponibilità solleva preoccupazioni etiche, come il rischio di creare deepfake e contenuti fuorvianti. I ricercatori sottolineano la necessità di un utilizzo responsabile di questa tecnologia.
Con la crescente accessibilità e sofisticazione dei video generati dall’AI, il rilascio di CogVideoX potrebbe segnare una svolta importante, spostando il potere dai grandi attori del settore verso un modello di sviluppo più distribuito e open source. Tuttavia, sarà cruciale che i decisori politici e gli esperti di etica collaborino con la comunità AI per stabilire linee guida adeguate.