Alibaba presenta Qwen2-VL: il nuovo modello AI che analizza video oltre i 20 minuti

DiFantasy

Ago 30, 2024

Alibaba Cloud, la divisione di servizi cloud di Alibaba, ha lanciato Qwen2-VL, un avanzato modello di intelligenza artificiale progettato per migliorare la comprensione visiva e video, oltre a gestire testi e immagini in più lingue.

Le caratteristiche principali di Qwen2-VL sono:

Analisi di Video Lunghi: Qwen2-VL può analizzare video di oltre 20 minuti, offrendo riepiloghi e rispondendo a domande sui contenuti. Questo lo rende utile per applicazioni come il supporto tecnico in tempo reale.
Supporto Multilingue: Il modello supporta lingue come inglese, cinese, giapponese, coreano, arabo, vietnamita e molte lingue europee.
Prestazioni Eccellenti: Nei test, Qwen2-VL ha mostrato risultati notevoli rispetto ad altri modelli di punta, come Llama 3.1 di Meta e GPT-4 di OpenAI. Puoi provare una demo su Hugging Face.

Le sue funzionalità avanzate sono:

Analisi e Descrizione dei Video: Qwen2-VL può riassumere i video, rispondere a domande e mantenere una conversazione in tempo reale. Ad esempio, ha descritto correttamente un video di astronauti in una stazione spaziale.
Versioni Open Source: Il modello è disponibile in tre varianti: Qwen2-VL-72B (72 miliardi di parametri), Qwen2-VL-7B e Qwen2-VL-2B. Le versioni 7B e 2B sono open source con licenza Apache 2.0, consentendo un uso commerciale flessibile. La versione 72B sarà disponibile in futuro con una licenza separata.

Le tecnologie innovative di Qwen2-VL sono:

Chiamata di Funzione e Percezione Visiva: Qwen2-VL può integrarsi con altri software e strumenti, e gestire dati visivi in m sonoodo simile a come lo farebbe un essere umano.
Miglioramenti Architetturali: Include il Naive Dynamic Resolution per gestire immagini a diverse risoluzioni e il Multimodal Rotary Position Embedding (M-ROPE) per integrare informazioni su testo, immagini e video.

Alibaba presenta Qwen2-VL: il nuovo modello AI che analizza video oltre i 20 minuti

DiFantasy

Di Fantasy

Articoli correlati

Xiaomi presenta una mano robotica con “sudorazione” artificiale per migliorare precisione e raffreddamento nel robot umanoide CyberOne

Google testa Gemma 4: la strategia multi-scala tra modelli compatti e MoE da 120 miliardi

ByteDance rafforza watermark e protezione IP di Seedance 2.0 per limitare abusi e contenuti non autorizzati

Ultimi Post

Xiaomi presenta una mano robotica con “sudorazione” artificiale per migliorare precisione e raffreddamento nel robot umanoide CyberOne

Google testa Gemma 4: la strategia multi-scala tra modelli compatti e MoE da 120 miliardi

ByteDance rafforza watermark e protezione IP di Seedance 2.0 per limitare abusi e contenuti non autorizzati

Robot autonomi installano impianti solari da 100 MW: il sistema Maximo accelera la costruzione dei parchi fotovoltaici