Immagine AI

In un mondo dove le immagini e i testi si fondono sempre più nei contenuti digitali, non basta più generare un’immagine o un testo: serve un modello che ne preservi la coerenza estetica durante le modifiche. Qwen‑Image‑Edit, l’ultima creazione del team Qwen di Alibaba, nasce esattamente con questo obiettivo: unire precisione visiva, editing intelligente e rispetto del design originale.

Dietro Qwen‑Image‑Edit c’è il robusto “backbone” di Qwen‑Image, un modello da 20 miliardi di parametri basato sull’architettura MMDiT (Multimodal Diffusion Transformer), pensato per la generazione e il rendering di testo complesso nelle immagini, sia in inglese che in cinese. Una piattaforma open-source potente e versatile, con licenza Apache 2.0, che ha già mostrato notevoli capacità nella generazione di scene con testo embedded e fedeltà stilistica.

Qwen‑Image‑Edit porta queste competenze un passo più avanti. Grazie a una doppia codifica che sfrutta Qwen2.5‑VL per la comprensione semantica e un VAE Encoder per preservare l’aspetto visivo, il modello è in grado di affrontare con successo due tipi di modifiche:

  • Semantic editing: modifiche profonde o stilistiche — come rotazioni, trasferimenti di stile, e creazione di personaggi IP — che cambiano molti pixel ma mantengono la coerenza semantica.
  • Appearance editing: ritocchi localizzati — aggiunta, rimozione o modifica di elementi mantenendo intatte le altre parti dell’immagine.

Una delle funzioni più impressionanti è la modifica testuale bilingue (ingl‑cinese), mantenendo inalterati font, dimensioni e stile. Un’opportunità unica per aggiornare rapidamente poster, calligrafie o cartelli in lingue diverse senza rompere l’armonia visiva.

Le dimostrazioni pratiche sono affascinanti. Con il simpatico Capybara, mascotte del team, il modello mostra:

  • Esclusivo IP creation con emoji MBTI tematiche;
  • View synthesis: rotazioni fino a 180° per osservare l’oggetto da ogni lato;
  • Style transfer: trasformazioni in stili artistici come quelli di Studio Ghibli;
  • Inserimento preciso di oggetti, con dettagli come riflessi realistici;
  • Rimozione di piccoli dettagli, come fili di capelli o imperfezioni;
  • Modifica di singoli caratteri: persino lettere minuscole possono essere evidenziate e ritoccate con precisione.

Un esempio particolarmente utile è la correzione progressiva di un’opera calligrafica: si disegnano bounding box attorno ai caratteri errati e Qwen‑Image‑Edit li corregge in modo selettivo, mantenendo il resto intatto.

Il modello è disponibile come open weights su Hugging Face, GitHub e tramite demo online come Qwen Chat. Claramente progettato per essere accessibile e adottato da aziende, sviluppatori e creativi senza barriere d’ingresso.

Di Fantasy