Baidu ha recentemente presentato MuseSteamer, un modello di nuova generazione dedicato alla creazione di contenuti video, audio e voce integrati in un unico strumento. A differenza di molti modelli sviluppati per il grande pubblico, MuseSteamer è stato concepito specificamente per un uso aziendale e professionale, segnando così un passo importante per l’azienda nel settore delle soluzioni audiovisive.
La presentazione ufficiale è avvenuta il 2 luglio sulla homepage di Baidu, dove è stato evidenziato il concetto chiave di “intelligenza audiovisiva integrata”. Questo significa che MuseSteamer consente di combinare in modo fluido e coordinato video, effetti sonori e doppiaggio, permettendo così una produzione più efficiente e creativa. Baidu ha sottolineato che si tratta del primo modello del genere rilasciato in Cina, una novità che punta a rafforzare la sua posizione nel mercato dell’intelligenza artificiale multimodale.
Fino a oggi, Baidu non aveva mai offerto un modello dedicato esclusivamente alla generazione video. All’inizio dell’anno, l’azienda era stata criticata per essere rimasta indietro rispetto a competitor come DeepSeek, che si sono distinti proprio in questo ambito tecnologico. Per rispondere a questa sfida, Baidu ha orientato i propri sforzi verso lo sviluppo di modelli multimodali, come “Ernie 4.5” ed “Ernie X1”, e ora con MuseSteamer offre un prodotto avanzato che integra video e audio con funzionalità professionali.
MuseSteamer è in grado di generare video di 10 secondi in risoluzione 1080p, utilizzando input sia testuali che visivi. Baidu ha evidenziato la capacità del modello di mantenere una coerenza temporale e una progressione organica nei video prodotti, con dettagli di alta qualità come espressioni facciali realistiche e movimenti di camera sofisticati, a livello professionale.
Sebbene non siano stati resi noti tutti i dettagli tecnici, Baidu ha condiviso alcuni risultati importanti: MuseSteamer ha raggiunto il punteggio più alto, l’88,38%, nel test ‘V-Bench I2V’ condotto da Hugging Face, un’indicazione della sua eccellenza nella generazione video.
Tra le tecnologie implementate, Baidu ha menzionato l’uso del Video Structured Language (VDL) per il controllo preciso a livello di pixel e la composizione cinematografica, un processo di affinamento multi-stadio (multi-stage supervised fine-tuning) che permette di migliorare progressivamente la qualità del video partendo da risoluzioni e frame rate bassi fino a livelli elevati, e il conditional fine-tuning (CFT) per ottimizzare la comprensione delle immagini. Inoltre, il modello beneficia di un’ottimizzazione continua basata sul feedback umano globale e di tecnologie di miglioramento rapido.
MuseSteamer è pensato per un’utenza professionale molto ampia, che include artisti, aziende, emittenti e istituzioni. Baidu ha reso disponibile il prodotto in tre diverse versioni—Turbo, Lite e Pro—per adattarsi a varie esigenze e budget. Al momento, il modello non è ancora stato reso disponibile al pubblico generale.