Qwen-Image-Edit: l’editor visivo che ci fa scrivere nelle immagini senza perdere stile

In un mondo dove le immagini e i testi si fondono sempre più nei contenuti digitali, non basta più generare un’immagine o un testo: serve un modello che ne preservi la coerenza estetica durante le modifiche. Qwen‑Image‑Edit, l’ultima creazione del team Qwen di Alibaba, nasce esattamente con questo obiettivo: unire precisione visiva, editing intelligente e rispetto del design originale.

Dietro Qwen‑Image‑Edit c’è il robusto “backbone” di Qwen‑Image, un modello da 20 miliardi di parametri basato sull’architettura MMDiT (Multimodal Diffusion Transformer), pensato per la generazione e il rendering di testo complesso nelle immagini, sia in inglese che in cinese. Una piattaforma open-source potente e versatile, con licenza Apache 2.0, che ha già mostrato notevoli capacità nella generazione di scene con testo embedded e fedeltà stilistica.

Qwen‑Image‑Edit porta queste competenze un passo più avanti. Grazie a una doppia codifica che sfrutta Qwen2.5‑VL per la comprensione semantica e un VAE Encoder per preservare l’aspetto visivo, il modello è in grado di affrontare con successo due tipi di modifiche:

Semantic editing: modifiche profonde o stilistiche — come rotazioni, trasferimenti di stile, e creazione di personaggi IP — che cambiano molti pixel ma mantengono la coerenza semantica.
Appearance editing: ritocchi localizzati — aggiunta, rimozione o modifica di elementi mantenendo intatte le altre parti dell’immagine.

Una delle funzioni più impressionanti è la modifica testuale bilingue (ingl‑cinese), mantenendo inalterati font, dimensioni e stile. Un’opportunità unica per aggiornare rapidamente poster, calligrafie o cartelli in lingue diverse senza rompere l’armonia visiva.

Le dimostrazioni pratiche sono affascinanti. Con il simpatico Capybara, mascotte del team, il modello mostra:

Esclusivo IP creation con emoji MBTI tematiche;
View synthesis: rotazioni fino a 180° per osservare l’oggetto da ogni lato;
Style transfer: trasformazioni in stili artistici come quelli di Studio Ghibli;
Inserimento preciso di oggetti, con dettagli come riflessi realistici;
Rimozione di piccoli dettagli, come fili di capelli o imperfezioni;
Modifica di singoli caratteri: persino lettere minuscole possono essere evidenziate e ritoccate con precisione.

Un esempio particolarmente utile è la correzione progressiva di un’opera calligrafica: si disegnano bounding box attorno ai caratteri errati e Qwen‑Image‑Edit li corregge in modo selettivo, mantenendo il resto intatto.

Il modello è disponibile come open weights su Hugging Face, GitHub e tramite demo online come Qwen Chat. Claramente progettato per essere accessibile e adottato da aziende, sviluppatori e creativi senza barriere d’ingresso.

Qwen-Image-Edit: l’editor visivo che ci fa scrivere nelle immagini senza perdere stile

DiFantasy

Di Fantasy

Articoli correlati

Alibaba lancia il modello open source Qwen-Image-2512 per la generazione di immagini AI

Samsung rilancia Bixby con l’intelligenza artificiale di Perplexity

AI, potenza e audio immersivo per l’home cinema per la nuova soundbar Samsung HW-Q990H

Ultimi Post

Alibaba lancia il modello open source Qwen-Image-2512 per la generazione di immagini AI

Samsung rilancia Bixby con l’intelligenza artificiale di Perplexity

AI, potenza e audio immersivo per l’home cinema per la nuova soundbar Samsung HW-Q990H

Vivibook: l’AI che può creare valore nell’editoria