L’intelligenza artificiale (AI) sta rivoluzionando vari settori, e l’animazione non fa eccezione. Ricercatori di NVIDIA, Stanford University e altre istituzioni hanno sviluppato un modello AI in grado di generare episodi di un minuto in stile Tom e Jerry a partire da semplici storyboard testuali. Questo progresso rappresenta un passo significativo nell’automazione e nella personalizzazione dei contenuti animati.
Il cuore di questa innovazione è il TTT-MLP (Test-Time Training-Multilayer Perceptron), un modello che integra “Test-Time Training” (TTT) in trasformatori pre-addestrati. Questa integrazione consente al modello di apprendere e adattarsi durante la fase di test, migliorando la coerenza temporale e la fluidità dei video generati. I ricercatori hanno utilizzato un dataset basato su episodi di Tom e Jerry per addestrare il modello, ottenendo risultati superiori in termini di coerenza narrativa e qualità visiva rispetto ad altri approcci.
Un esempio notevole prodotto con questo modello mostra Tom che entra in un ufficio a New York, prende l’ascensore e si siede alla scrivania. La situazione degenera quando Jerry taglia un cavo, dando inizio a una tipica sequenza di inseguimento, ma ambientata in un contesto moderno e urbano.
Nonostante i risultati siano promettenti, i ricercatori hanno notato la presenza di alcuni artefatti nei video, probabilmente dovuti alle limitazioni del modello pre-addestrato utilizzato. Guardando al futuro, esistono opportunità per estendere questo approccio a video più lunghi e storie più complesse, richiedendo reti neurali più grandi e sofisticate. Inoltre, miglioramenti nell’efficienza del modello potrebbero ridurre i problemi di prestazioni attuali.