Una delle novità più entusiasmanti introdotte recentemente da OpenAI è la funzione di generazione di immagini integrata nel modello GPT-4o. Sebbene la tecnologia di base per questa funzionalità si basi su un documento pubblicato da Meta nel settembre dello scorso anno, OpenAI ha introdotto aggiornamenti significativi, migliorando notevolmente le capacità del modello. Questo approccio ha suscitato molto interesse per il modo in cui integra la generazione delle immagini direttamente nel flusso di lavoro di GPT-4o, senza fare affidamento su modelli di generazione esterni come DALL·E.

La tecnologia alla base di questa innovazione è conosciuta come “trasfusione”, un’architettura che è stata svelata per la prima volta da Meta. Questo approccio è progettato per elaborare dati discreti (come parole o token) e dati continui (come i pixel delle immagini). L’idea centrale è quella di unire testo e immagini in un unico modello di trasformatore, consentendo al modello di trattare entrambi i tipi di dati in modo integrato. La trasfusione utilizza un meccanismo di diffusione per rimuovere il rumore dalle immagini e combinarle con il testo, rendendo possibile la creazione di contenuti visivi a partire da descrizioni testuali.

OpenAI ha adottato e migliorato questa tecnologia, affrontando alcuni dei limiti iniziali. In particolare, ha introdotto due nuovi token, BOI (Begin-of-Image) ed EOI (End-of-Image), per segnare l’inizio e la fine del contenuto visivo, rispettivamente. Questo permette di trattare le immagini separatamente dal testo e di mantenerle distinte durante il processo di generazione. Inoltre, anziché trattare le immagini come una sequenza di token discreti, OpenAI le rappresenta come vettori in uno spazio temporaneo, riducendo il numero di token necessari e accelerando la generazione.

Il miglioramento principale rispetto al modello originale di Meta riguarda l’efficienza e la qualità delle immagini prodotte. Invece di suddividere un’immagine in centinaia di token, OpenAI ha ridotto il numero di “patch” latenti a solo 16, il che consente di generare immagini più velocemente e con minori risorse computazionali. Inoltre, i vettori di queste patch vengono elaborati attraverso un codificatore chiamato “blocco up/down U-Net”, che ottimizza ulteriormente la velocità e la qualità del processo di generazione.

Un altro vantaggio significativo è che il modello GPT-4o ottimizzato con la trasfusione migliora la coerenza tra il testo e l’immagine, producendo risultati più precisi, come nel caso della tipografia all’interno delle immagini generate. Ciò significa che GPT-4o può generare immagini con testo in modo molto più preciso rispetto a prima.

I risultati di queste innovazioni sono evidenti nei benchmark, come il test ‘MS-COCO’, che misura la fedeltà dell’allineamento immagine-testo. Il modello di trasfusione ottimizzato ha ottenuto risultati superiori rispetto a Chameleon, un modello precedente di Meta, mostrando una qualità visiva superiore e una migliore corrispondenza tra l’immagine e il testo. Inoltre, questa tecnologia richiede solo circa il 22% delle risorse computazionali rispetto al modello Chameleon per produrre immagini di qualità simile.

Nonostante questi miglioramenti, la trasfusione non è priva di sfide. Il processo di creazione delle immagini è più complesso e richiede diverse fasi, il che può rallentare la generazione rispetto ad altre tecniche. Tuttavia, l’efficienza e la qualità migliorata delle immagini prodotte indicano che questa tecnologia ha un grande potenziale, con ulteriori sviluppi che potrebbero ridurre ulteriormente la complessità e migliorare la velocità.

OpenAI ha dichiarato che nei prossimi mesi rilascerà un’API che permetterà agli sviluppatori di integrare la generazione di immagini direttamente nelle loro applicazioni utilizzando GPT-4o. Questo rappresenta una svolta significativa nella creazione di contenuti visivi tramite intelligenza artificiale, rendendo la generazione di immagini ancora più accessibile e potente per una vasta gamma di utenti.

Di Fantasy