Datanomy ha riferito che Microsoft ha svelato “Visual ChatGPT” che può creare immagini dal testo o gestire i prompt delle immagini caricate dall’utente.
Visual ChatGPT è un modello di aggiornamento ChatGPT che combina vari modelli visivi (VFM) come Visual Transformer e Stable Diffusion con ChatGPT. ChatGPT può utilizzare questo modello visivo per gestire le richieste degli utenti per la creazione e la modifica delle immagini.
ChatGPT ha recentemente guadagnato popolarità grazie alla sua capacità di rispondere come un essere umano. Attualmente risponde solo in formato testo, quindi non può elaborare, creare o modificare immagini.
D’altra parte, i modelli visivi come i trasformatori visivi e la diffusione stabile mostrano un’eccellente comprensione visiva e capacità di generazione.
La combinazione di ChatGPT con modelli visivi può portare a nuovi modelli come Visual ChatGPT, in grado di elaborare e generare input di immagini. Ciò consente agli utenti di comunicare con ChatGPT in un modo che va oltre il linguaggio.
Visual ChatGPT può generare testo o immagini da prompt di testo e immagini, gestire richieste complesse su più processi e fornire input e feedback su immagini caricate o create.