Alibaba presenta modello Qwen3.5-Omni, progettato per elaborare contemporaneamente testo, audio, immagini e video senza passaggi intermedi di conversione. Questo approccio rappresenta un cambiamento rispetto ai modelli precedenti, che tendevano a trasformare ogni input in testo prima dell’elaborazione.
La caratteristica principale del nuovo modello è l’adozione di un’architettura definita “nativa omni-modale”, in cui tutte le modalità di input vengono processate in modo unificato. Questo consente al sistema di interpretare direttamente flussi audiovisivi complessi e generare output coerenti senza pipeline sequenziali di trascrizione o descrizione. La differenza architetturale non è solo teorica, ma incide sulle prestazioni in tempo reale e sulla capacità di reagire a contesti dinamici.
Qwen3.5-Omni è stato rilasciato in tre varianti, Plus, Flash e Light, e supporta un contesto esteso fino a 256.000 token, elemento rilevante per l’elaborazione di sequenze lunghe come video o conversazioni prolungate. Il modello è stato addestrato su un dataset multimodale su larga scala che include oltre cento milioni di ore di contenuti audio e video, consentendo una comprensione più robusta di situazioni complesse e multi-canale.
Il sistema è in grado di elaborare fino a dieci ore di audio continuo e video di 400 secondi in formato 720p, mantenendo una velocità di elaborazione di circa un frame al secondo. Il modello supporta inoltre il riconoscimento vocale in 113 lingue e la generazione vocale in 36 lingue, ampliando la possibilità di utilizzo in contesti globali e multi-lingua.
Uno degli aspetti più innovativi introdotti è il concetto di “audio-visual vibe coding”, una modalità di sviluppo in cui il sistema genera codice a partire da input visivi e vocali senza necessità di prompt testuali. Il modello può osservare una scena attraverso la videocamera o interpretare una registrazione dello schermo e tradurre queste informazioni in istruzioni di programmazione, producendo ad esempio un’interfaccia web o un prototipo di applicazione. Questo approccio riduce la distanza tra descrizione informale e implementazione tecnica.
Il paradigma del vibe coding audiovisivo suggerisce un cambiamento nella progettazione degli strumenti di sviluppo. Invece di descrivere funzionalità tramite testo, l’utente può mostrare un esempio visivo o esprimere verbalmente un’intenzione, lasciando al modello il compito di tradurre il contesto in codice eseguibile. Questo sposta il focus dalla sintassi alla comprensione semantica dell’interazione.
L’architettura interna del modello utilizza una struttura definita “Thinker-Talker”, in cui un modulo si occupa della comprensione multimodale e della generazione del contenuto testuale, mentre un secondo modulo produce output vocali naturali. Questa separazione consente di ottimizzare le prestazioni mantenendo coerenza tra comprensione e risposta. Il sistema supporta inoltre input e output in streaming, rendendo possibile l’interazione in tempo reale.
Tra le funzionalità di interazione avanzata è presente il meccanismo di “semantic interruption”, che permette al modello di riconoscere quando interrompere o continuare una conversazione in base al significato dell’input, riducendo le interruzioni causate da rumori o segnali non intenzionali. È inoltre integrata la tecnologia ARIA, progettata per migliorare l’allineamento dinamico tra audio e testo e ridurre errori nella pronuncia o nella lettura di numeri e termini complessi.
Il modello include anche capacità di clonazione vocale, che consentono di generare risposte con timbri personalizzati a partire da un campione audio fornito dall’utente. Questa funzione amplia le possibilità di personalizzazione e di creazione di assistenti vocali con identità specifiche. Sono inoltre supportate funzionalità di ricerca web in tempo reale e chiamate di funzione, che permettono al sistema di eseguire operazioni complesse e aggiornate.
Sul piano delle prestazioni, la versione Plus del modello raggiunge risultati di livello SOTA in diversi benchmark multimodali, superando modelli concorrenti nell’ambito della comprensione audio e del ragionamento multimodale. Le prestazioni visive e testuali rimangono comparabili a quelle di modelli della stessa scala, suggerendo un equilibrio tra capacità multimodali e competenze linguistiche.
Un ulteriore elemento rilevante è il posizionamento economico della variante Flash, offerta a circa 0,1 dollari per milione di token, con l’obiettivo di rendere accessibili funzionalità multimodali avanzate anche in ambienti di produzione. Il modello è disponibile tramite API e può essere testato attraverso interfacce dedicate, facilitando l’integrazione in applicazioni e workflow esistenti.
