Alibaba ha recentemente annunciato il rilascio di “QVQ-72B-Preview”, un modello di intelligenza artificiale open-source progettato per il ragionamento multimodale, capace di elaborare simultaneamente informazioni testuali e visive.

Questo sviluppo segue di un mese il lancio di “QwQ-32B-Preview”, un modello focalizzato sul ragionamento, evidenziando l’impegno di Alibaba nell’avanzare rapidamente nel campo dell’IA, in particolare nel settore del ragionamento multimodale.

Il team di ricerca di Alibaba ha spiegato che QVQ è stato ispirato dal modo in cui gli esseri umani integrano linguaggio e percezione visiva per comprendere il mondo circostante. Il modello utilizza una struttura gerarchica che combina informazioni testuali e visive, migliorando l’efficienza computazionale senza compromettere l’accuratezza. Inoltre, incorpora un meccanismo di allineamento avanzato basato su architetture Transformer, che facilita una rappresentazione precisa tra testo e immagini, potenziando la comprensione visiva e le capacità di problem-solving del modello.

Nei test di benchmark, QVQ ha ottenuto risultati notevoli. Nel MMMU, che valuta le capacità di comprensione e ragionamento visivo a livello universitario, ha raggiunto un punteggio di 70,3, leggermente inferiore a modelli come “o1-2024-12-17” di OpenAI (77,3) e “Claude 3.5 Sonnet” di Anthropic (70,4). Tuttavia, in test come MathVista, che misura le abilità matematiche visive attraverso forme e grafici, QVQ ha ottenuto un punteggio di 71,4, superando gli altri modelli di oltre 5 punti. Anche in MathVision, derivato da problemi di competizioni matematiche reali, ha registrato il punteggio più alto, superando Claude di 0,3 punti. Tuttavia, nel benchmark scientifico multimodale OlympiadBench, QVQ è risultato inferiore a GPT-4.

Rispetto al suo predecessore, Qwen-2-VL-72B, QVQ ha mostrato miglioramenti in tutti i benchmark, con incrementi che vanno da 0,9 a 10 punti, confermando l’efficacia dell’enfasi sul ragionamento multimodale.

Nonostante le prestazioni promettenti, i ricercatori hanno riconosciuto alcune limitazioni di QVQ. Il modello potrebbe mescolare o cambiare inaspettatamente lingua nelle risposte, compromettendo la chiarezza. Inoltre, potrebbe generare risposte prolisse senza giungere a una conclusione definitiva o perdere il focus sul contenuto visivo durante processi di ragionamento visivo complessi, portando a fenomeni di allucinazione.

Il rilascio di QVQ rappresenta un passo significativo per Alibaba nel campo dei modelli di ragionamento multimodale open-source. Negli Stati Uniti, Meta ha annunciato l’intenzione di sviluppare “Llama 4”, un modello di ragionamento multimodale previsto per il prossimo anno. Con il lancio di due modelli open-source focalizzati sul ragionamento in un mese, Alibaba sta rapidamente colmando il divario con leader del settore come OpenAI, dimostrando un impegno deciso nell’avanzamento delle tecnologie di intelligenza artificiale.

Di Fantasy