Deepmind lancia il framework di generazione video SOTA, “Transframer”
Il framework utilizza i componenti U-net e Transformer per condizionare i frame di contesto annotati e generare una sequenza di funzioni di immagine compresse di riserva.
Di recente, i ricercatori di Deepmind hanno annunciato il lancio di Transframer , un nuovo framework generico per la modellazione di immagini e attività di visione basate sulla previsione probabilistica del frame. Questo nuovo modello unifica un’ampia gamma di attività, tra cui la segmentazione delle immagini, la sintesi delle viste e l’interpolazione video.
Quest’ultimo framework utilizza i componenti U-Net e Transformer per condizionare i frame di contesto annotati e genera sequenze di caratteristiche di immagini sparse e compresse.
Cosa fa Transframer
Sviluppato da Deepmind, Transframer unifica una gamma di attività di modellazione e visione delle immagini e ha la capacità di creare video o funzionalità di immagine basate su una singola immagine con uno o più frame di contesto.
Transframer funziona su una varietà di benchmark di generazione video. Il team di ricerca afferma che si tratta di un modello all’avanguardia che dovrebbe essere il più forte e competitivo sulla sintesi di viste a pochi scatti e può generare video coerenti di 30 secondi da una singola immagine.
Il modello proposto ha anche mostrato risultati promettenti su otto attività in totale, alcune delle quali sono la segmentazione semantica, la classificazione delle immagini e la previsione del flusso ottico senza componenti architetturali specifici per le attività.
Transframer può essere utilizzato anche in varie applicazioni che richiedono l’apprendimento della struttura condizionale utilizzando testo o una singola immagine e sarà in grado di prevedere e generare modelli video, sintesi di viste innovative e visione multi-task.
Sostenuto da Google, Deepmind ha svolto ricerche nel campo dell’IA dal 2010 e si è concentrato sulla creazione di modelli di computer in grado di risolvere da soli problemi di costruzione e generativi.