Alibaba ha recentemente annunciato il rilascio di “QVQ-72B-Preview”, un modello di intelligenza artificiale open-source progettato per il ragionamento multimodale, capace di elaborare simultaneamente informazioni testuali e visive.
Questo sviluppo segue di un mese il lancio di “QwQ-32B-Preview”, un modello focalizzato sul ragionamento, evidenziando l’impegno di Alibaba nell’avanzare rapidamente nel campo dell’IA, in particolare nel settore del ragionamento multimodale.
Il team di ricerca di Alibaba ha spiegato che QVQ è stato ispirato dal modo in cui gli esseri umani integrano linguaggio e percezione visiva per comprendere il mondo circostante. Il modello utilizza una struttura gerarchica che combina informazioni testuali e visive, migliorando l’efficienza computazionale senza compromettere l’accuratezza. Inoltre, incorpora un meccanismo di allineamento avanzato basato su architetture Transformer, che facilita una rappresentazione precisa tra testo e immagini, potenziando la comprensione visiva e le capacità di problem-solving del modello.
Nei test di benchmark, QVQ ha ottenuto risultati notevoli. Nel MMMU, che valuta le capacità di comprensione e ragionamento visivo a livello universitario, ha raggiunto un punteggio di 70,3, leggermente inferiore a modelli come “o1-2024-12-17” di OpenAI (77,3) e “Claude 3.5 Sonnet” di Anthropic (70,4). Tuttavia, in test come MathVista, che misura le abilità matematiche visive attraverso forme e grafici, QVQ ha ottenuto un punteggio di 71,4, superando gli altri modelli di oltre 5 punti. Anche in MathVision, derivato da problemi di competizioni matematiche reali, ha registrato il punteggio più alto, superando Claude di 0,3 punti. Tuttavia, nel benchmark scientifico multimodale OlympiadBench, QVQ è risultato inferiore a GPT-4.
Rispetto al suo predecessore, Qwen-2-VL-72B, QVQ ha mostrato miglioramenti in tutti i benchmark, con incrementi che vanno da 0,9 a 10 punti, confermando l’efficacia dell’enfasi sul ragionamento multimodale.
Nonostante le prestazioni promettenti, i ricercatori hanno riconosciuto alcune limitazioni di QVQ. Il modello potrebbe mescolare o cambiare inaspettatamente lingua nelle risposte, compromettendo la chiarezza. Inoltre, potrebbe generare risposte prolisse senza giungere a una conclusione definitiva o perdere il focus sul contenuto visivo durante processi di ragionamento visivo complessi, portando a fenomeni di allucinazione.
Il rilascio di QVQ rappresenta un passo significativo per Alibaba nel campo dei modelli di ragionamento multimodale open-source. Negli Stati Uniti, Meta ha annunciato l’intenzione di sviluppare “Llama 4”, un modello di ragionamento multimodale previsto per il prossimo anno. Con il lancio di due modelli open-source focalizzati sul ragionamento in un mese, Alibaba sta rapidamente colmando il divario con leader del settore come OpenAI, dimostrando un impegno deciso nell’avanzamento delle tecnologie di intelligenza artificiale.