I ricercatori di Microsoft hanno recentemente pubblicato un documento che presenta l’architettura “Visual ChatGPT”, la quale unisce le capacità di ChatGPT con modelli visivi come Stable Diffusion. Questo approccio mira a colmare il divario tra la generazione di testo e immagini e può essere visto come una possibile soluzione per gli algoritmi di text-to-image. Il sistema utilizza un “prompt manager” che si interfaccia con i VFM, gli algoritmi utilizzati per la visione artificiale, per elaborare l’output senza problemi.
Il prompt manager è il cuore del sistema e funge da sostituto dell’utente, spostando ChatGPT verso l’output richiesto attraverso una serie di prompt su misura. Ciò significa che l’immagine di output è ottenuta senza allucinazioni e fa affidamento sulle capacità dei VFM.
Il processo di far sì che i modelli di intelligenza artificiale comprendano il contesto linguistico degli umani è ancora un’area inesplorata, ma ci sono alcune tecnologie emergenti come PromptHero che forniscono un archivio di prompt per algoritmi di conversione da testo a immagine. Visual ChatGPT, invece, sembra avere il potenziale per ampliare le capacità dei modelli LLM e T2I e ridurre la barriera di accesso ai modelli da testo a immagine.
Un vantaggio di Visual ChatGPT è che gli utenti non devono impegnarsi in richieste complesse per trasmettere informazioni al modello. Possono semplicemente digitare, in linguaggio naturale, ciò che vogliono dal modello. Questo può rendere l’utilizzo di questi modelli più accessibile anche per coloro che non sono esperti di intelligenza artificiale.
Tuttavia, c’è ancora un problema fondamentale nel modo in cui funzionano i modelli di testo in immagine. Questo è la loro mancanza di comprensione quando si tratta di contesto linguistico e relazioni fisiche tra gli oggetti. I sussurratori di intelligenza artificiale e l’ingegneria rapida sono nuovi approcci che mirano a far sì che i modelli di intelligenza artificiale “capiscano” gli umani. Ci sono ancora molte sfide da affrontare, ma con tecnologie come Visual ChatGPT, si potrebbe essere in grado di fare progressi significativi in questo campo.
Inoltre, Visual ChatGPT potrebbe rappresentare un primo passo verso l’AGI (intelligenza artificiale generale), poiché riunisce le capacità di LLM e modelli visivi. Sebbene ci siano ancora molti ostacoli da superare prima di raggiungere l’AGI, tecnologie come Visual ChatGPT possono essere utilizzate per amplificare le capacità dei modelli di intelligenza artificiale esistenti e portare l’interoperabilità tra di essi a un livello superiore.
In sintesi, Visual ChatGPT rappresenta un’importante evoluzione nel campo della generazione di testo e immagini, grazie all’uso di un prompt manager che consente di interfacciarsi con i VFM per elaborare l’output. Anche se ci sono ancora alcune sfide da affrontare nel campo dell’IA, tecnologie come Visual ChatGPT possono fare la differenza nell’amplificare le capacità dei modelli esistenti e portare l’interoperabilità tra di essi a un livello superiore.