Immagina di scattarti una foto, registrare la tua voce e, come per magia, vederti proiettato in un video realistico, animato e visivamente impressionante—un vero avatar cinematografico. Sembra fantascienza, eppure è ciò che ha appena annunciato Alibaba, proiettando gli strumenti di creazione video AI in una nuova e affascinante dimensione.
Il 26 agosto 2025, Alibaba ha pubblicato su GitHub e Hugging Face il modello open source chiamato Wan2.2‑S2V (Speech2Video), rendendolo disponibile a chiunque voglia sperimentare. Questo modello di intelligenza artificiale utilizza una singola immagine statica e un file audio per generare un video realistico — con qualità visiva tale da essere definita “di livello cinematografico”.
Il modello fa parte della serie Wan2.2, che già in precedenza aveva introdotto un approccio innovativo grazie all’architettura MoE (Mixture of Experts). Una rete che, pur avendo 27 miliardi di parametri, attiva solo 14 miliardi durante la generazione, ottimizzando così efficienza e performance.
Alibaba ha evidenziato tre caratteristiche chiave:
- Animazione video audio-sincronizzata di qualità elevata: non solo immagini statiche, ma un video che fluisce in modo realistico in base all’audio e al parlato.
- Coerenza dinamica nei video lunghi: il modello mantiene continuità visiva e logica anche quando il video si estende per durate maggiori.
- Controllo sofisticato su movimento e ambiente: gli sviluppatori possono regolare l’output modellando in modo preciso come l’avatar si muove, parla e interagisce con lo spazio circostante.
Alphabet, GitHub e Hugging Face hanno reso disponibile non solo il codice, ma anche un demo online, invitando chiunque voglia sperimentare a testare il modello direttamente.
L’annuncio di Alibaba si inserisce in un panorama in rapida evoluzione. Già nel 2023, era emerso “Animate Anyone”, un framework per generare video a partire da una singola immagine. Altri attori, come Microsoft con VASA‑1, Kuaishou con “AI Dancer” e ByteDance con “OmniHuman”, hanno seguito a ruota sviluppando soluzioni affini.
Oggi, funzionalità simili sono ormai diffuse: “image-to-video” è presente in piattaforme come Beo 3, Kling, e persino nelle suite professionali come Adobe Firefly. Ciò che rende innovativo il modello di Alibaba è l’inclusione dell’audio sincronizzato all’animazione — un salto di qualità che apre potenzialità creative un tempo impensabili.