Alibaba ha recentemente ampliato le capacità della sua piattaforma Qwen Chat introducendo funzionalità avanzate di chat vocale e video, rese possibili dal lancio del nuovo modello open-source Qwen2.5-Omni-7B. Questo modello, rilasciato sotto licenza Apache 2.0, rappresenta un significativo passo avanti nell’integrazione multimodale dell’intelligenza artificiale, consentendo l’elaborazione simultanea di testo, immagini, audio e video.
Al cuore di Qwen2.5-Omni vi è l’architettura “Thinker-Talker”. Il componente “Thinker” funge da cervello, elaborando e comprendendo le informazioni, mentre il “Talker” agisce come la bocca, generando risposte in tempo reale attraverso un decoder Transformer autoregressivo a doppio binario. Questa struttura permette al modello di fornire risposte fluide e naturali, migliorando l’interazione uomo-macchina.
Qwen2.5-Omni ha dimostrato prestazioni di alto livello in vari compiti, tra cui il riconoscimento vocale, la traduzione, la comprensione di audio e video, e la generazione di discorsi. In confronti con modelli monomodali e soluzioni proprietarie come Qwen2.5-VL-7B, Qwen2-Audio e Gemini-1.5-pro, Qwen2.5-Omni ha ottenuto risultati all’avanguardia, evidenziando la sua efficacia nell’elaborazione di input multimodali.
Per favorire la comunità di sviluppatori e ricercatori, Alibaba ha reso disponibile il codice sorgente e la documentazione di Qwen2.5-Omni su piattaforme come GitHub e Hugging Face, offrendo anche una demo interattiva per esplorare le capacità del modello.
Questo lancio si inserisce nel più ampio impegno di Alibaba nell’ambito dell’intelligenza artificiale. Recentemente, l’azienda ha presentato QwQ-Max-Preview, un modello specializzato in compiti matematici e di codifica, e ha annunciato un investimento di oltre 50 miliardi di dollari nei prossimi tre anni per potenziare le infrastrutture AI.