Google ha appena intensificato il gioco per l’IA da testo a immagine
DreamBooth può comprendere il soggetto dell’immagine data, separarlo dal contesto esistente nell’immagine e quindi sintetizzarlo in un nuovo contesto desiderato con alta fedeltà.
Google ha annunciato il suo nuovo modello di diffusione da testo a immagine, DreamBooth. Questo strumento di intelligenza artificiale può generare una miriade di immagini del soggetto desiderato di un utente in contesti diversi utilizzando la guida di un prompt di testo.
“Riesci a immaginare il tuo cane in giro per il mondo o la tua borsa preferita esposta nello showroom più esclusivo di Parigi? Che ne dici del tuo pappagallo come protagonista di un libro di fiabe illustrato?”, si legge nell’introduzione del giornale.
L’idea chiave per il modello è quella di consentire agli utenti di creare rappresentazioni fotorealistiche dell’istanza del soggetto desiderata e di legarla al modello di diffusione da testo a immagine. Pertanto, questo strumento si rivela efficace per sintetizzare soggetti in contesti diversi.
DreamBooth di Google adotta un approccio leggermente diverso rispetto ad altri strumenti da testo a immagine rilasciati di recente come DALL-E2, Stable Diffusion, Imagen e Midjourney fornendo un maggiore controllo dell’immagine del soggetto e quindi guidando il modello di diffusione utilizzando input basati su testo.
DreamBooth contro il mondo
Mentre il modello esistente, DALL-E2 , può sintetizzare e creare variazioni semantiche di una data singola immagine, non riesce a ricostruire l’aspetto del soggetto e non può nemmeno modificare il contesto. DreamBooth può comprendere il soggetto dell’immagine data, separarlo dal contesto esistente nell’immagine e quindi sintetizzarlo in un nuovo contesto desiderato con alta fedeltà.
Il compito di fondere perfettamente un oggetto in una scena è un compito impegnativo dato che le tecniche esistenti sono limitate a modelli solo da testo a immagine con DALL-E2 che consentono il caricamento di una sola immagine per la sintesi. L’intelligenza artificiale di DreamBooth con solo da tre a cinque immagini di input del soggetto può produrre una miriade di immagini in contesti diversi con un prompt di testo.
Gli strumenti di ricostruzione 3D hanno la stessa sfida di non essere in grado di generare spazi con soggetti in diverse illuminazioni. RawNeRF di Google Research ha risolto questo problema generando spazi 3D da un insieme di singole immagini.
Un altro problema osservato per la sintesi delle immagini è la perdita di informazioni durante il processo di diffusione, come trovare la mappa del rumore e un vettore che si riferisce a un’immagine generata. Mentre Imagen o DALL-E2 tentano di incorporare e rappresentare in modo ottimale il concetto, limitandolo allo stile dell’immagine di output desiderata, DreamBooth perfeziona il modello per incorporare il soggetto all’interno del dominio di output del modello collegando il soggetto di input a un identificativo unico. Ciò si traduce nella generazione di immagini variabili e nuove del soggetto mantenendo e preservando l’identità del soggetto.
DreamBooth può anche eseguire il rendering del soggetto sotto diversi punti di vista della fotocamera con l’aiuto di poche immagini di input. Anche se le immagini di input non includono informazioni sul soggetto da diverse angolazioni, l’IA può prevedere le proprietà del soggetto e quindi sintetizzarle all’interno del contesto guidato dal testo.
Questo modello può anche sintetizzare le immagini per produrre diverse emozioni, accessori o modifiche ai colori, con l’aiuto di un messaggio di testo che consente ulteriore libertà creativa e personalizzazione per gli utenti.
Limitazioni
Per generare iterazioni altamente dettagliate nell’oggetto, il prompt dei comandi diventa una limitazione. DreamBooth può apportare variazioni nel contesto del soggetto, ma per apportare modifiche all’interno del soggetto, il modello affronta dei difetti all’interno dell’inquadratura.
Un altro problema è l’overfitting dell’immagine di output nell’immagine di input. Il soggetto a volte non viene valutato o si fonde con il contesto delle immagini date se le immagini in ingresso sono di numero inferiore. Ciò si verifica anche quando viene richiesto un contesto per la generazione che è raro.
Alcune altre limitazioni sono l’incapacità di sintetizzare immagini o soggetti più rari o più complessi e anche la variabilità nella fedeltà del soggetto che crea variazioni allucinanti e tratti discontinua del soggetto. Il contesto di input è spesso mescolato all’interno del soggetto dalle immagini di input.
Più potere per gli utenti
La maggior parte dei modelli da testo a immagine esegue il rendering degli output utilizzando milioni di parametri e librerie per generare un’immagine basata sul singolo input di testo. DreamBooth si rende più facile e accessibile per gli utenti poiché richiede solo un input di 3 ~ 5 immagini catturate del soggetto insieme a un contesto testuale. Il modello addestrato è quindi in grado di riutilizzare le qualità materialistiche del soggetto ottenute dalle immagini per ricrearlo all’interno di diverse ambientazioni e punti di vista mantenendo i tratti distintivi del soggetto.
La maggior parte dei modelli da testo a immagine si basa su parole chiave specifiche e potrebbe essere sbilanciata verso attributi specifici durante il rendering delle immagini. DreamBooth offre agli utenti la possibilità di immaginare il soggetto desiderato all’interno di un nuovo ambiente o contesto e generare risultati fotorealistici.