In una battaglia per determinare chi possa creare immagini AI realistiche, uno dei principali attori che ha catturato l’attenzione del pubblico è Mamma, grazie al suo modello di testo in immagine. Tuttavia, altri giocatori come Midjourney e Stable Diffusion hanno superato la loro piattaforma di generazione di immagini Dall E-2. Ma i recenti sviluppi indicano che Dall E-3 è in arrivo, un tentativo di recuperare il ritardo nella corsa alla generazione di immagini AI.

OpenAI sembra essere impegnata nel test di una nuova piattaforma di generazione di immagini, potrebbe essere un aggiornamento di Dall E-2. Solo un esclusivo server di test OpenAI, con accesso limitato a 400 persone, ha potuto provare l’ultima versione del modello. MattVidPro, uno Youtuber, ha condiviso un video esplicativo mostrando le immagini del nuovo modello in fase di test e secondo gli utenti: “Non ho alcun interesse a usare Midjourney dopo aver usato questo.”

Il nuovo modello sembra essere altamente capace e superiore nel seguire suggerimenti e dettagli coerenti, inclusi testi coerenti, fotorealismo e stili artistici diversi. Ha dimostrato la capacità di creare immagini dettagliate con capelli, illuminazione, copie pubblicitarie e risolve anche il problema dei dettagli delle mani, comunemente affrontato nei modelli precedenti. Rispetto ad altre applicazioni come Midjourney V5.2 e Stability Diffusion XL, sembra superarli tutti.

Dopo essere stato rilasciato a tutti nel settembre 2022, Dall E-2 non ha ricevuto aggiornamenti significativi fino ad oggi. Tuttavia, recentemente, è emerso che OpenAI sta sperimentando Dall E-2 per creare immagini più nitide e fotorealistiche.

Con GPT-4 che supporta funzionalità multimodali, c’è la possibilità che la prossima versione del modello di generazione da testo a immagine di OpenAI abbia funzionalità avanzate.

Midjourney ha rilasciato 5 versioni dei propri modelli di generazione testo-immagine in un solo anno, ma ha sempre mantenuto il codice sorgente chiuso. D’altra parte, Stability Diffusion è open source e il loro ultimo modello, Stability Diffusion XL 1.0, è disponibile anche su Amazon Bedrock. A confronto, Adobe Firefly offre il proprio servizio come prova e poi permette agli utenti di abbonarsi.

OpenAI si è recentemente impegnata in una serie di punti d’azione per garantire una governance responsabile dell’IA. Lavorando con altre sei grandi aziende tecnologiche, incluso Microsoft, Google e Meta, si stanno coordinando per contrassegnare i contenuti audio e visivi generati dall’intelligenza artificiale. Questa filigrana potrebbe essere incorporata nell’ultima versione del modello che stanno testando, rendendo OpenAI la prima grande azienda tecnologica a farlo. Anche se la sicurezza sembra essere una priorità, al momento l’ultimo modello di generazione di immagini di OpenAI sembra ancora presentare alcune problematiche.

A causa della fase di test, le caratteristiche di sicurezza non sono presenti nel modello attuale, il che potrebbe portare a generare immagini contenenti contenuti inappropriati come sangue, gore e nudità frontale. Inoltre, può creare opere d’arte, personaggi e loghi aziendali accurati ma protetti da copyright.

L’anno scorso, Dall E-2 è stato criticato per aver creato immagini inappropriate che rafforzavano pregiudizi di genere, stereotipi razziali e contenuti eccessivamente sessuali.

Nonostante la necessità di miglioramenti e un’attenzione particolare alla sicurezza, la comunità ha risposto in modo promettente al nuovo modello, valutandolo più in alto rispetto agli attuali strumenti di generazione di immagini. Si stima che il nuovo modello arriverà a dicembre.

Di Fantasy