Immagine AI

Alibaba ha presentato Wan2.2, il primo modello open source di generazione video basato sull’architettura Mixture-of-Experts (MoE). Questa innovazione segna un passo decisivo nel panorama dell’intelligenza artificiale applicata alla produzione video, offrendo a sviluppatori e creatori strumenti avanzati per realizzare contenuti cinematografici con maggiore efficienza e controllo.

Wan2.2 si distingue per l’adozione dell’architettura MoE, che suddivide il modello in esperti specializzati per diverse fasi del processo di generazione video. Nel caso del modello A14B, composto da 27 miliardi di parametri, solo 14 miliardi vengono attivati durante ogni fase di inferenza, riducendo significativamente il carico computazionale senza compromettere la qualità del risultato finale.

Questa struttura consente a Wan2.2 di gestire in modo ottimale la denoising dei video, utilizzando un esperto ad alto rumore nelle fasi iniziali per definire la composizione generale e un esperto a basso rumore nelle fasi successive per affinare i dettagli. La transizione tra i due esperti è determinata dal rapporto segnale/rumore (SNR), ottimizzando così l’efficienza computazionale.

La serie Wan2.2 comprende tre modelli principali:

  • Wan2.2-T2V-A14B: modello text-to-video che genera video a partire da descrizioni testuali.
  • Wan2.2-I2V-A14B: modello image-to-video che crea video basati su immagini statiche.
  • Wan2.2-TI2V-5B: modello ibrido che supporta sia input testuali che visivi.

Tutti i modelli sono progettati per offrire un controllo preciso su vari aspetti estetici del video, come illuminazione, tonalità cromatica, angolo della telecamera, composizione e profondità di campo. Questa capacità di personalizzazione permette ai creatori di ottenere risultati con qualità cinematografica senza la necessità di post-produzione.

Wan2.2 si distingue anche per l’efficienza nella generazione di video ad alta definizione. Il modello TI2V-5B, ad esempio, è in grado di produrre un video di 5 secondi a 720p e 24 fps in meno di 9 minuti utilizzando una singola GPU consumer come la RTX 4090. Questa velocità è resa possibile grazie a un’architettura di codifica avanzata che consente una compressione temporale e spaziale efficiente.

In termini di prestazioni, Wan2.2 ha superato i modelli di generazione video commerciali esistenti in diversi criteri chiave, come la qualità estetica e la fedeltà del movimento, secondo il benchmark “Wan-Bench 2.0”. Questi risultati consolidano la posizione di Alibaba come leader nel settore open source per la generazione video basata su intelligenza artificiale.

Tutti i modelli Wan2.2 sono disponibili per il download su piattaforme open source come Hugging Face e ModelScope. Questo approccio open source riflette l’impegno di Alibaba nel promuovere l’innovazione collaborativa e nell’offrire strumenti avanzati a una comunità globale di sviluppatori e creatori.

Di Fantasy