Alibaba Cloud, la divisione di servizi cloud di Alibaba, ha lanciato Qwen2-VL, un avanzato modello di intelligenza artificiale progettato per migliorare la comprensione visiva e video, oltre a gestire testi e immagini in più lingue.
Le caratteristiche principali di Qwen2-VL sono:
- Analisi di Video Lunghi: Qwen2-VL può analizzare video di oltre 20 minuti, offrendo riepiloghi e rispondendo a domande sui contenuti. Questo lo rende utile per applicazioni come il supporto tecnico in tempo reale.
- Supporto Multilingue: Il modello supporta lingue come inglese, cinese, giapponese, coreano, arabo, vietnamita e molte lingue europee.
- Prestazioni Eccellenti: Nei test, Qwen2-VL ha mostrato risultati notevoli rispetto ad altri modelli di punta, come Llama 3.1 di Meta e GPT-4 di OpenAI. Puoi provare una demo su Hugging Face.
Le sue funzionalità avanzate sono:
- Analisi e Descrizione dei Video: Qwen2-VL può riassumere i video, rispondere a domande e mantenere una conversazione in tempo reale. Ad esempio, ha descritto correttamente un video di astronauti in una stazione spaziale.
- Versioni Open Source: Il modello è disponibile in tre varianti: Qwen2-VL-72B (72 miliardi di parametri), Qwen2-VL-7B e Qwen2-VL-2B. Le versioni 7B e 2B sono open source con licenza Apache 2.0, consentendo un uso commerciale flessibile. La versione 72B sarà disponibile in futuro con una licenza separata.
Le tecnologie innovative di Qwen2-VL sono:
- Chiamata di Funzione e Percezione Visiva: Qwen2-VL può integrarsi con altri software e strumenti, e gestire dati visivi in m sonoodo simile a come lo farebbe un essere umano.
- Miglioramenti Architetturali: Include il Naive Dynamic Resolution per gestire immagini a diverse risoluzioni e il Multimodal Rotary Position Embedding (M-ROPE) per integrare informazioni su testo, immagini e video.