In un mondo dove le immagini e i testi si fondono sempre più nei contenuti digitali, non basta più generare un’immagine o un testo: serve un modello che ne preservi la coerenza estetica durante le modifiche. Qwen‑Image‑Edit, l’ultima creazione del team Qwen di Alibaba, nasce esattamente con questo obiettivo: unire precisione visiva, editing intelligente e rispetto del design originale.
Dietro Qwen‑Image‑Edit c’è il robusto “backbone” di Qwen‑Image, un modello da 20 miliardi di parametri basato sull’architettura MMDiT (Multimodal Diffusion Transformer), pensato per la generazione e il rendering di testo complesso nelle immagini, sia in inglese che in cinese. Una piattaforma open-source potente e versatile, con licenza Apache 2.0, che ha già mostrato notevoli capacità nella generazione di scene con testo embedded e fedeltà stilistica.
Qwen‑Image‑Edit porta queste competenze un passo più avanti. Grazie a una doppia codifica che sfrutta Qwen2.5‑VL per la comprensione semantica e un VAE Encoder per preservare l’aspetto visivo, il modello è in grado di affrontare con successo due tipi di modifiche:
- Semantic editing: modifiche profonde o stilistiche — come rotazioni, trasferimenti di stile, e creazione di personaggi IP — che cambiano molti pixel ma mantengono la coerenza semantica.
- Appearance editing: ritocchi localizzati — aggiunta, rimozione o modifica di elementi mantenendo intatte le altre parti dell’immagine.
Una delle funzioni più impressionanti è la modifica testuale bilingue (ingl‑cinese), mantenendo inalterati font, dimensioni e stile. Un’opportunità unica per aggiornare rapidamente poster, calligrafie o cartelli in lingue diverse senza rompere l’armonia visiva.
Le dimostrazioni pratiche sono affascinanti. Con il simpatico Capybara, mascotte del team, il modello mostra:
- Esclusivo IP creation con emoji MBTI tematiche;
- View synthesis: rotazioni fino a 180° per osservare l’oggetto da ogni lato;
- Style transfer: trasformazioni in stili artistici come quelli di Studio Ghibli;
- Inserimento preciso di oggetti, con dettagli come riflessi realistici;
- Rimozione di piccoli dettagli, come fili di capelli o imperfezioni;
- Modifica di singoli caratteri: persino lettere minuscole possono essere evidenziate e ritoccate con precisione.
Un esempio particolarmente utile è la correzione progressiva di un’opera calligrafica: si disegnano bounding box attorno ai caratteri errati e Qwen‑Image‑Edit li corregge in modo selettivo, mantenendo il resto intatto.
Il modello è disponibile come open weights su Hugging Face, GitHub e tramite demo online come Qwen Chat. Claramente progettato per essere accessibile e adottato da aziende, sviluppatori e creativi senza barriere d’ingresso.