Alibaba ha annunciato il rilascio di Wan 2.1, un modello open-source avanzato per la generazione di video e immagini. Questa mossa strategica mira a consolidare la posizione di Alibaba nel settore dell’IA, offrendo una soluzione potente e accessibile per la creazione di contenuti multimediali realistici.​

Wan 2.1 si distingue per la sua capacità di generare video con movimenti complessi che simulano accuratamente le dinamiche fisiche del mondo reale. Il modello supporta diverse applicazioni, tra cui:​

  • Text-to-Video: creazione di video a partire da descrizioni testuali;​
  • Image-to-Video: trasformazione di immagini statiche in sequenze video dinamiche;​
  • Video Editing: modifica e miglioramento di video esistenti;​
  • Text-to-Image: generazione di immagini basate su input testuali;​
  • Video-to-Audio: estrazione o generazione di tracce audio sincronizzate con il video.​

La suite Wan 2.1 comprende tre modelli principali:​

  • Wan2.1-I2V-14B: ottimizzato per generare video ad alta risoluzione (480p e 720p) con scene visive complesse;​
  • Wan2.1-T2V-14B: supporta la generazione di video in più lingue, inclusi cinese e inglese;​
  • Wan2.1-T2V-1.3B: progettato per funzionare su GPU di fascia consumer, richiedendo solo 8,19 GB di VRAM e capace di produrre un video di 5 secondi a 480p in circa 4 minuti su una GPU RTX 4090. ​

Secondo i benchmark del VBench Leaderboard, Wan 2.1 supera sia i modelli open-source esistenti che le soluzioni commerciali all’avanguardia, incluso OpenAI’s Sora, in diverse dimensioni chiave come la fluidità del movimento, la coerenza temporale e le interazioni tra oggetti. ​

Il successo di Wan 2.1 è attribuibile a diverse innovazioni tecniche, tra cui:​

  • Spatio-Temporal Variational Autoencoder (VAE): un’architettura 3D causale progettata specificamente per la generazione di video, che implementa un meccanismo di cache delle feature per ridurre l’uso della memoria e preservare la causalità temporale. ​
  • Framework Flow Matching nel Paradigma Diffusion Transformer (DiT): integra l’encoder T5 per elaborare input testuali multilingue attraverso meccanismi di cross-attention, migliorando significativamente le prestazioni a parità di scala dei parametri.​
  • Pipeline Dati su Larga Scala: curata e deduplicata, composta da 1,5 miliardi di video e 10 miliardi di immagini, garantendo una formazione robusta e diversificata del modello.​

I modelli Wan 2.1 sono disponibili globalmente sulle piattaforme Alibaba Cloud’s ModelScope e Hugging Face, consentendo l’accesso per scopi accademici, di ricerca e commerciali. ​

Inoltre, Alibaba ha recentemente rilasciato una versione preview del suo nuovo modello di ragionamento, QwQ-Max, e ha annunciato un investimento di oltre 52 miliardi di dollari nei prossimi tre anni per potenziare le sue infrastrutture di cloud computing e intelligenza artificiale. ​

Di Fantasy