Genmo, una startup specializzata nell’intelligenza artificiale per la generazione di video, ha annunciato il rilascio di un’anteprima di ricerca per Mochi 1, un innovativo modello open source per la creazione di video di alta qualità a partire da prompt di testo. Secondo Genmo, le prestazioni di Mochi 1 sono comparabili o addirittura superiori a quelle di modelli proprietari come Gen-3 Alpha di Runway, Dream Machine di Luma AI, Kling di Kuaishou e Hailuo di Minimax.
Mochi 1 è disponibile con una licenza permissiva Apache 2.0, che consente agli utenti di accedere gratuitamente a funzionalità avanzate di generazione video, mentre i concorrenti offrono piani che partono da opzioni gratuite limitate fino a 94,99 dollari al mese per livelli premium.
Oltre al rilascio del modello, Genmo ha creato un’area di prova online, dove gli utenti possono sperimentare direttamente le capacità di Mochi 1. Attualmente, è disponibile un modello con risoluzione 480p, mentre una versione ad alta definizione, Mochi 1 HD, sarà lanciata più avanti nel corso dell’anno.
I primi video mostrati da Genmo evidenziano scenari e movimenti incredibilmente realistici, specialmente per quanto riguarda i soggetti umani.
Mochi 1 introduce notevoli progressi nel settore della generazione video, come l’alta fedeltà del movimento e una forte aderenza alle istruzioni fornite dagli utenti, permettendo un controllo preciso su personaggi, ambientazioni e azioni.
Paras Jain, CEO e co-fondatore di Genmo, ha dichiarato che l’azienda è solo all’inizio del suo percorso nel video generativo. “La vera sfida è creare video lunghi, fluidi e di alta qualità. Ci stiamo concentrando molto sul miglioramento della qualità del movimento,” ha affermato Jain.
La missione di Genmo è rendere la tecnologia AI accessibile a tutti, democratizzando questa tecnologia e mettendola nelle mani di quante più persone possibile.
In concomitanza con il lancio di Mochi 1, Genmo ha annunciato di aver raccolto 28,4 milioni di dollari in un round di finanziamento di serie A, guidato da NEA e supportato da altri investitori. Jain sottolinea che il video è un mezzo di comunicazione fondamentale e che la sua azienda mira a costruire strumenti che possano rivoluzionare robotica e sistemi autonomi.
Mochi 1 è basato sulla nuova architettura Asymmetric Diffusion Transformer (AsymmDiT) e vanta 10 miliardi di parametri, rendendolo il più grande modello di generazione video open source mai rilasciato. Il design del modello è stato ottimizzato per l’efficienza, utilizzando un Variational Autoencoder (VAE) per comprimere i dati video, riducendo i requisiti di memoria e rendendolo più accessibile per gli sviluppatori.
Attualmente, Mochi 1 presenta alcune limitazioni: supporta solo risoluzione 480p e potrebbe mostrare piccole distorsioni visive in situazioni con movimenti complessi. Tuttavia, Genmo prevede di lanciare Mochi 1 HD entro la fine dell’anno, migliorando ulteriormente la risoluzione e la qualità del movimento.
Genmo sta anche lavorando per sviluppare capacità di sintesi da immagine a video e prevede di migliorare la controllabilità del modello, offrendo agli utenti un controllo ancora più preciso sulle uscite video.
Il lancio di Mochi 1 apre nuove possibilità in diversi settori, consentendo a ricercatori e sviluppatori di esplorare nuove applicazioni nell’intrattenimento, nella pubblicità e nell’istruzione. Inoltre, può essere utilizzato per generare dati sintetici per l’addestramento di modelli di intelligenza artificiale nella robotica e nei sistemi autonomi.
Jain immagina un futuro in cui chiunque, anche in situazioni svantaggiate, possa utilizzare questa tecnologia per esprimere idee creative e ottenere riconoscimenti, come un Oscar.
Genmo invita gli utenti a provare l’anteprima di Mochi 1 nel loro ambiente di test online, sebbene al momento la pagina non fosse accessibile al momento della pubblicazione.
Genmo è attivamente alla ricerca di ricercatori e ingegneri per unirsi al suo team, focalizzandosi sulla creazione di modelli innovativi per la generazione di video. Jain ha concluso affermando che l’azienda è impegnata a spingere avanti i confini dell’intelligenza artificiale open source.