Immagine AI

Il 28 giugno 2025, Alibaba ha lanciato ufficialmente Qwen-VLo, un avanzato modello di intelligenza artificiale multimodale progettato per rivoluzionare la generazione e l’editing delle immagini. Questo modello rappresenta un significativo passo avanti rispetto ai precedenti sistemi, integrando capacità di comprensione e creazione visiva in un’unica piattaforma.

Qwen-VLo si distingue per la sua capacità di “comprendere” e “creare” immagini in modo bidirezionale. Partendo dal precedente modello Qwen-VL, questo nuovo sistema è stato potenziato per gestire input complessi, come descrizioni testuali dettagliate o schizzi semplici, e trasformarli in immagini ad alta qualità. Ad esempio, è possibile fornire un prompt come “Crea un paesaggio urbano futuristico al tramonto” e ottenere un’immagine che rispecchia fedelmente la descrizione fornita.

Una delle caratteristiche più innovative di Qwen-VLo è la possibilità di modificare le immagini utilizzando comandi in linguaggio naturale. Gli utenti possono, ad esempio, chiedere: “Aggiungi un albero in primo piano” o “Cambia l’illuminazione in una tonalità più calda”, e il modello apporterà le modifiche richieste in tempo reale. Questa funzionalità semplifica notevolmente il processo di editing, rendendolo accessibile anche a chi non ha competenze tecniche specifiche.

Qwen-VLo utilizza una tecnica di “generazione progressiva”, che costruisce l’immagine passo dopo passo, dall’alto verso il basso e da sinistra a destra. Durante questo processo, gli utenti possono intervenire in qualsiasi momento per modificare dettagli specifici, come la posizione degli oggetti o la composizione cromatica. Questo approccio offre un controllo maggiore sul risultato finale, permettendo una personalizzazione più precisa delle immagini generate.

Il modello è progettato per supportare più lingue, tra cui cinese e inglese, facilitando l’accesso a utenti di diverse nazionalità. Le sue applicazioni sono molteplici e spaziano dall’e-commerce alla pubblicità digitale, dall’istruzione alla creazione di contenuti per i social media. Ad esempio, è possibile generare poster bilingue, adattati a diverse culture e mercati, utilizzando semplicemente descrizioni testuali.

Oltre alla generazione e modifica delle immagini, Qwen-VLo è in grado di eseguire attività di analisi visiva, come il rilevamento degli oggetti, la segmentazione delle immagini e l’identificazione dei contorni. Queste funzionalità sono particolarmente utili per applicazioni che richiedono una comprensione approfondita del contenuto visivo, come la gestione dell’inventario o l’analisi dei dati visivi.

Attualmente, Qwen-VLo è disponibile in anteprima tramite la piattaforma ‘Qwen Chat’. In futuro, Alibaba prevede di rilasciare gradualmente il modello alla comunità open source, permettendo a sviluppatori e ricercatori di integrarlo nelle loro applicazioni e progetti. Questa apertura favorirà l’innovazione e l’adozione del modello in diversi settori industriali e creativi.

Di Fantasy