Immagine AI

La startup cinese Sand AI ha recentemente lanciato MAGI-1, un modello di intelligenza artificiale open source per la generazione di video. Questo modello si distingue per la sua capacità di generare video in modo autoregressivo, prevedendo sequenze di fotogrammi in blocchi di 24, anziché creare l’intero video simultaneamente. Questa innovazione consente una maggiore coerenza temporale e una scalabilità superiore rispetto ai modelli precedenti.​

MAGI-1 è basato sull’architettura Diffusion Transformer (DiT), che combina i vantaggi dei modelli di diffusione utilizzati nella generazione di immagini e dei trasformatori alla base dei modelli linguistici. Questa combinazione permette al modello di elaborare testo e immagini in modo indipendente, massimizzando l’interazione tra le due modalità per fornire una qualità delle immagini superiore e una migliore comprensione del testo.​

Una delle caratteristiche distintive di MAGI-1 è la sua capacità di generare video di alta qualità con un’accurata implementazione dei movimenti fisici. Il modello ha ottenuto punteggi elevati in benchmark come il “Physics-IQ”, che valuta l’accuratezza della previsione del comportamento fisico nei video. Inoltre, MAGI-1 ha superato altri modelli concorrenti in termini di qualità del movimento e comprensione delle istruzioni.​

Attualmente, MAGI-1 è disponibile per l’uso attraverso la piattaforma “Magic-Product” gestita da Sand AI. Tuttavia, l’accesso al modello richiede un hardware significativo, con una configurazione minima di quattro GPU Nvidia H100. Per gli sviluppatori interessati, il codice sorgente e il modello sono disponibili rispettivamente su “Magi-Source” e “Magi-Attention”.

Di Fantasy