ByteDance, la società madre di TikTok, ha recentemente introdotto Goku, una famiglia di modelli AI avanzati progettati per la generazione congiunta di immagini e video. Questi modelli, ispirati al popolare personaggio dell’anime “Dragon Ball”, mirano a competere con altre soluzioni AI di alto livello come Luma di Google e Sora di OpenAI.

Goku utilizza una formulazione di flusso rettificato (RF) per la generazione congiunta di immagini e video, combinata con un VAE 3D per comprimere gli input in uno spazio latente condiviso. Questa architettura avanzata include una rete Transformer con attenzione completa, arricchita da tecniche come FlashAttention, parallelismo sequenziale, Patch n’ Pack, embedding posizionale 3D RoPE e normalizzazione Q-K.

I modelli Goku hanno ottenuto risultati notevoli in diverse valutazioni. Hanno raggiunto un punteggio di 0,76 su GenEval, 83,65 su DPG-Bench per la generazione di testo-immagine e 84,85 su VBench per i compiti di testo-video. Questi risultati stabiliscono nuovi standard nel campo della generazione congiunta di immagini e video, superando concorrenti come Luma, Open-Sora, Mira e Pika.

La capacità di Goku di generare video di alta qualità con influencer AI e altre immagini realistiche offre opportunità significative per creatori di contenuti, influencer e professionisti del marketing. Questa tecnologia potrebbe rivoluzionare la produzione di contenuti, consentendo la creazione di video promozionali, avatar digitali e altre applicazioni creative in modo più efficiente e accessibile.

In conclusione, l’introduzione di Goku da parte di ByteDance rappresenta un passo significativo nell’evoluzione dell’intelligenza artificiale applicata alla generazione di contenuti visivi, offrendo strumenti potenti per la creazione di video e immagini di alta qualità.

Di Fantasy