Google ha recentemente presentato “Whisk”, un innovativo strumento di intelligenza artificiale che consente la generazione di immagini senza l’utilizzo di prompt testuali. Questo strumento permette agli utenti di combinare diverse immagini per creare nuovi contenuti visivi, offrendo un approccio più intuitivo e creativo alla generazione di immagini.
Whisk opera sulla base del modello di generazione di immagini “Imagen 3” di Google. Gli utenti possono selezionare tre tipi di immagini da combinare:
- Immagine del soggetto: rappresenta l’elemento principale della nuova immagine.
- Immagine della scena: definisce l’ambientazione o lo sfondo desiderato.
- Immagine dello stile: determina l’estetica o il mood dell’immagine finale.
Ad esempio, caricando una propria foto come soggetto, scegliendo un paesaggio urbano futuristico come scena e applicando uno stile di animazione, Whisk genererà un’immagine che combina questi elementi in modo armonioso.
Whisk analizza le immagini fornite e genera automaticamente didascalie dettagliate per ciascuna. Queste didascalie vengono poi utilizzate da Imagen 3 come prompt testuali per creare la nuova immagine. Questo processo elimina la necessità per l’utente di formulare descrizioni testuali, semplificando l’interazione e rendendo l’esperienza più accessibile.
Gli utenti hanno la possibilità di:
- Salvare le immagini generate tra i preferiti.
- Scaricare le creazioni sul proprio dispositivo.
Modificare le didascalie generate automaticamente per affinare ulteriormente il risultato.
Questa flessibilità consente di ottenere immagini che rispecchiano con precisione le intenzioni creative dell’utente.
Google avverte che, poiché Whisk si basa su caratteristiche chiave delle immagini fornite, i risultati potrebbero non corrispondere esattamente alle aspettative. Ad esempio, l’aspetto fisico di una persona nell’immagine generata potrebbe differire dall’originale in termini di altezza, corporatura, acconciatura o tonalità della pelle. Pertanto, è consigliabile rivedere e, se necessario, modificare i prompt generati per ottenere risultati più accurati.
Attualmente, Whisk è in fase di test ed è accessibile agli utenti negli Stati Uniti.