Alibaba ha introdotto Qwen3.7-Max come modello foundation progettato specificamente per scenari agentici ad alta complessità, spostando il focus dai tradizionali benchmark conversazionali verso esecuzione autonoma prolungata, orchestrazione di strumenti, automazione software e gestione persistente del contesto operativo. Il modello è stato ottimizzato per task che richiedono continuità inferenziale su centinaia o migliaia di step, inclusi debugging iterativo, sviluppo software multi-file, automazione d’ufficio e workflow basati su Model Context Protocol (MCP).
Uno degli elementi più rilevanti è il supporto nativo a loop agentici persistenti. Qwen3.7-Max non viene presentato come semplice modello generativo, ma come runtime decisionale capace di mantenere stato operativo, utilizzare strumenti esterni, verificare autonomamente gli output e correggere iterativamente gli errori durante l’esecuzione. Alibaba evidenzia infatti compatibilità con framework agentici come Claude Code, OpenClaude e Q1 Code, segnale importante perché indica un addestramento orientato alla generalizzazione cross-framework invece che all’ottimizzazione per singoli ambienti chiusi.
Nei benchmark di software engineering il modello ha ottenuto 60,6 punti in SWE-Pro e 80,4 in SWE-Verified, raggiungendo livelli vicini ai modelli top-tier occidentali nei task di coding verificato. Tuttavia, il dato più interessante riguarda la capacità di esecuzione autonoma a lungo termine. Durante un test di ottimizzazione GPU kernel durato oltre 35 ore consecutive, Qwen3.7-Max ha eseguito autonomamente 1.158 chiamate tool e 432 valutazioni kernel, scrivendo codice, compilando build, identificando colli di bottiglia prestazionali e correggendo errori senza intervento umano. Secondo Alibaba, il risultato finale è stato un incremento medio di performance pari a 10 volte rispetto all’implementazione iniziale.
Questo tipo di comportamento indica un’evoluzione importante rispetto ai classici modelli LLM stateless. Il modello utilizza infatti strategie iterative di pianificazione, verifica e retry che lo avvicinano maggiormente a un sistema operativo agentico che a un chatbot generativo tradizionale. In questo contesto assume particolare rilevanza anche la funzione preserve_thinking, che consente di mantenere persistenti i processi inferenziali e il reasoning intermedio durante task molto lunghi, riducendo la perdita di contesto tipica delle pipeline standard.
Alibaba attribuisce buona parte dei risultati alla strategia definita “environment scaling”. In pratica, invece di addestrare il modello su benchmark statici o task rigidamente definiti, il training espone continuamente l’agente agli stessi problemi attraverso ambienti, verificatori e architetture differenti. L’obiettivo non è apprendere pattern specifici del framework, ma sviluppare strategie generalizzate di risoluzione dei problemi, aumentando robustezza e trasferibilità operativa.
Anche gli esperimenti di reinforcement learning mostrano un approccio particolarmente orientato all’autonomia decisionale. In un training RL durato oltre 80 ore, il modello ha effettuato più di 10.000 chiamate operative, identificando autonomamente comportamenti di reward hacking e generando 13 nuove regole correttive senza supervisione diretta. Questo suggerisce un utilizzo sempre più avanzato del reinforcement learning non solo per migliorare output linguistici, ma per ottimizzare strategie operative complete in ambienti dinamici.
Interessanti anche i risultati in YC-Bench, simulatore di attività startup-oriented dove il modello ha gestito processi di lungo periodo come revisione contratti, rilevamento clienti fraudolenti e gestione operativa aziendale, raggiungendo ricavi simulati pari a 2,08 milioni di dollari, quasi sei volte superiori rispetto alla generazione precedente.
Con Qwen3.7-Max, Alibaba sembra quindi puntare meno sulla competizione diretta nei benchmark consumer e molto di più sulla costruzione di agenti AI persistenti utilizzabili in ambienti enterprise reali, dove continuità operativa, gestione tool, memoria di processo e capacità autonoma multi-step diventano più importanti della semplice qualità conversazionale.
