Immagine AI

HappyHorse 1.0, il modello di generazione video sviluppato da Alibaba attraverso l’unità ATH AI Innovation Unit, continua a occupare le prime posizioni nei confronti comparativi dedicati ai sistemi text-to-video e image-to-video. Il modello è arrivato inizialmente nei ranking di Artificial Analysis senza attribuzione pubblica e Alibaba ne ha poi confermato lo sviluppo nell’aprile 2026.

La valutazione di Artificial Analysis si basa su confronti alla cieca: agli utenti vengono sottoposti due video generati dallo stesso prompt, senza indicare il modello che li ha prodotti. Le preferenze raccolte vengono convertite in un punteggio Elo, quindi la posizione non deriva da benchmark automatici costruiti dal produttore ma dalla comparazione diretta fra risultati visivi percepiti dagli utenti.

Nella classifica text-to-video senza audio, HappyHorse 1.0 è al primo posto con 1.291 punti Elo, davanti a Dreamina Seedance 2.0 720p di ByteDance, Kling 3.0 1080p Pro di Kuaishou, Kling 3.0 Omni e Grok Imagine Video. Nel segmento text-to-video con audio integrato, il modello Alibaba è invece secondo: Seedance 2.0 720p guida la graduatoria con 1.219 punti Elo, mentre HappyHorse 1.0 raggiunge 1.123 punti, davanti alle varianti Pro di Kling 3.0 e al modello SkyReels V4.

Il risultato evidenzia una differenza importante fra le due configurazioni. HappyHorse ottiene le preferenze più alte quando il confronto riguarda esclusivamente il video, mentre Seedance 2.0 mantiene il vantaggio quando audio e video vengono valutati insieme. La distinzione è rilevante perché la generazione sonora introduce ulteriori variabili: sincronizzazione fra azioni e suoni, coerenza del parlato, lip-sync, rumori ambientali e continuità acustica lungo il filmato.

HappyHorse 1.0 riunisce in un’unica famiglia di modelli text-to-video, image-to-video, reference-to-video e video editing. Le implementazioni disponibili tramite servizi API supportano output a 720p e 1080p, clip da 3 a 15 secondi e diversi formati di inquadratura. Nelle configurazioni image-to-video il sistema anima un’immagine iniziale con un prompt opzionale, cercando di mantenere la composizione, il soggetto e gli elementi visivi dell’input durante il movimento.

Le varianti reference-to-video aggiungono la possibilità di usare fino a nove immagini di riferimento. Questo tipo di flusso è pensato per controllare maggiormente identità del soggetto, stile, costumi, oggetti e ambientazione, riducendo il rischio che il modello modifichi troppo il personaggio o l’estetica fra una generazione e l’altra. La funzione di video editing consente invece modifiche guidate da linguaggio naturale su filmati esistenti, anche con immagini di riferimento aggiuntive, mantenendo per quanto possibile il movimento della clip originale.

Uno degli aspetti tecnici più distintivi di HappyHorse 1.0 è la sintesi congiunta di video e audio. Il modello può produrre direttamente effetti sonori e parlato sincronizzati con la scena, invece di richiedere un secondo sistema separato per la colonna audio. Questa architettura punta a migliorare l’allineamento temporale tra eventi visivi e suoni, un passaggio che nei flussi tradizionali richiede spesso generazione separata, montaggio, doppiaggio o sonorizzazione successiva.

La competizione fra Alibaba, ByteDance, Kuaishou e altri produttori si sta quindi spostando oltre la semplice capacità di creare una singola scena realistica. I confronti includono stabilità dei personaggi, continuità dei dettagli, gestione del movimento, controllo della telecamera, fedeltà al prompt, animazione da immagini di riferimento e qualità della componente sonora. Restano però limiti comuni all’intero settore: le durate sono ancora brevi, la coerenza può degradarsi nelle sequenze più complesse e la generazione di scene con più soggetti, interazioni fisiche o cambi di inquadratura richiede spesso più tentativi e selezione manuale dell’output.

Di Fantasy