Il campo di battaglia globale dei Modelli Linguistici di Grandi Dimensioni (LLM) ha appena registrato un evento sismico, con l’emergere di un nuovo contendente che ha dimostrato capacità di ragionamento matematico ai vertici dell’élite mondiale. Alibaba ha svelato la versione iniziale del suo modello di inferenza di intelligenza artificiale di nuova generazione, “Qwen3-Max-Thinking”, un’intelligenza che, pur essendo ancora in fase di addestramento, ha già raggiunto prestazioni di calcolo e logica pari a quelle del rinomato GPT-5 Pro di OpenAI.
L’annuncio, diffuso il 4 (ora locale), è incentrato su un risultato che, fino a poco tempo fa, era quasi inimmaginabile: Qwen3-Max-Thinking ha ottenuto un tasso di accuratezza del 100% nei complessi benchmark di ragionamento matematico dell’American International Mathematics Invitational (AIME) del 2025 e dell’Harvard-MIT Mathematics Tournament (HMMT).
Questo successo posiziona Alibaba in un club estremamente ristretto. Qwen3-Max-Thinking è il secondo modello in assoluto, dopo il GPT-5 Pro di OpenAI, a raggiungere prestazioni perfette in queste rigorose competizioni di ragionamento matematico, e segna una pietra miliare storica come il primo modello proveniente dalla Cina a eguagliare questo livello di eccellenza. Questa performance non è solo una vittoria per Alibaba, ma un chiaro indicatore della rapida maturazione delle capacità di reasoning dell’AI non occidentali.
Qwen3-Max-Thinking è stato sviluppato come un’evoluzione diretta di “Qwen3-Max”, il modello rilasciato da Alibaba lo scorso settembre. Qwen3-Max era già considerato un gigante, essendo il modello più grande mai creato da Alibaba, con oltre 1 trilione di parametri. Al momento del suo lancio, mostrava prestazioni comparabili con i modelli più all’avanguardia del settore, tra cui ‘Claude Opus 4’ di Anthropic, ‘V3.1’ di DeepSeek, ‘Grok-4’ di xAI e lo stesso GPT-5 Pro.
La forza e l’intelligenza intrinseca di Qwen3-Max sono state dimostrate in esperimenti pratici in Cina. In una recente simulazione di trading virtuale di criptovalute condotta con fondi reali, Qwen3-Max ha superato tutti i sei modelli concorrenti, registrando un impressionante rendimento del 22,3% in sole due settimane, in netto contrasto con la performance negativa del GPT-5, che aveva subito una perdita del 62,7%. Questo risultato suggerisce che il modello base non eccelle solo nella pura logica accademica, ma anche nella complessa gestione di scenari economici e di risk assessment.
Nonostante i risultati da benchmark che lo proiettano nell’Olimpo dell’AI, Qwen3-Max-Thinking è ancora un lavoro in corso. Lin Junyang, ricercatore di Alibaba, ha rivelato su X (Twitter) che il modello “non è ancora completo” e che sono in corso ulteriori fasi di training per migliorare ulteriormente l’accuratezza e le capacità del modello. Questo suggerisce che il suo potenziale di performance finale potrebbe superare gli eccezionali risultati attuali.
Alibaba ha reso il modello accessibile alla comunità di sviluppatori e utenti sebbene non sia ancora completo. Qwen3-Max-Thinking è disponibile per l’utilizzo attraverso la piattaforma web Qwen Chat e tramite l’API di Alibaba Cloud.
