Alibaba ha annunciato il rilascio di Wan 2.1, un modello open-source avanzato per la generazione di video e immagini. Questa mossa strategica mira a consolidare la posizione di Alibaba nel settore dell’IA, offrendo una soluzione potente e accessibile per la creazione di contenuti multimediali realistici.
Wan 2.1 si distingue per la sua capacità di generare video con movimenti complessi che simulano accuratamente le dinamiche fisiche del mondo reale. Il modello supporta diverse applicazioni, tra cui:
- Text-to-Video: creazione di video a partire da descrizioni testuali;
- Image-to-Video: trasformazione di immagini statiche in sequenze video dinamiche;
- Video Editing: modifica e miglioramento di video esistenti;
- Text-to-Image: generazione di immagini basate su input testuali;
- Video-to-Audio: estrazione o generazione di tracce audio sincronizzate con il video.
La suite Wan 2.1 comprende tre modelli principali:
- Wan2.1-I2V-14B: ottimizzato per generare video ad alta risoluzione (480p e 720p) con scene visive complesse;
- Wan2.1-T2V-14B: supporta la generazione di video in più lingue, inclusi cinese e inglese;
- Wan2.1-T2V-1.3B: progettato per funzionare su GPU di fascia consumer, richiedendo solo 8,19 GB di VRAM e capace di produrre un video di 5 secondi a 480p in circa 4 minuti su una GPU RTX 4090.
Secondo i benchmark del VBench Leaderboard, Wan 2.1 supera sia i modelli open-source esistenti che le soluzioni commerciali all’avanguardia, incluso OpenAI’s Sora, in diverse dimensioni chiave come la fluidità del movimento, la coerenza temporale e le interazioni tra oggetti.
Il successo di Wan 2.1 è attribuibile a diverse innovazioni tecniche, tra cui:
- Spatio-Temporal Variational Autoencoder (VAE): un’architettura 3D causale progettata specificamente per la generazione di video, che implementa un meccanismo di cache delle feature per ridurre l’uso della memoria e preservare la causalità temporale.
- Framework Flow Matching nel Paradigma Diffusion Transformer (DiT): integra l’encoder T5 per elaborare input testuali multilingue attraverso meccanismi di cross-attention, migliorando significativamente le prestazioni a parità di scala dei parametri.
- Pipeline Dati su Larga Scala: curata e deduplicata, composta da 1,5 miliardi di video e 10 miliardi di immagini, garantendo una formazione robusta e diversificata del modello.
I modelli Wan 2.1 sono disponibili globalmente sulle piattaforme Alibaba Cloud’s ModelScope e Hugging Face, consentendo l’accesso per scopi accademici, di ricerca e commerciali.
Inoltre, Alibaba ha recentemente rilasciato una versione preview del suo nuovo modello di ragionamento, QwQ-Max, e ha annunciato un investimento di oltre 52 miliardi di dollari nei prossimi tre anni per potenziare le sue infrastrutture di cloud computing e intelligenza artificiale.