Immagine AI

Quando si parla di grandi modelli di linguaggio, è facile cadere nell’idea che “più parametri + più dati = meglio”. Alibaba sta dimostrando che non è necessariamente così. Il nuovo Qwen3-Next introduce una visione un po’ diversa: sì, modello imponente, ma progettato per usare le risorse con intelligenza, per ottenere prestazioni importanti senza sprecare potenza computazionale.

Il punto di partenza è impressionante: Qwen3-Next è una architettura pensata per “contesto ultra-lungo” e grandi modelli, ma con un trucco: anche se il modello ha 80 miliardi di parametri complessivi, durante l’inferenza (cioè quando è usato per generare testo, rispondere, ragionare) ne vengono attivati soltanto circa 3 miliardi. Questo significa che l’utente o l’azienda che lo usa non paga il prezzo pieno di un modello “universale”, ma può avere la potenza quasi equivalente a un modello denso come il Qwen3-32B con una frazione del costo. Alibaba dichiara che il costo computazionale per addestrarlo è stato inferiore al 10% rispetto a quello necessario per Qwen3-32B, e che in inferenza, in contesti molto lunghi (oltre i 32.000 token), Qwen3-Next offre prestazioni “molto più veloci”.

La versione “Instruct” di Qwen3-Next restituisce risultati vicini a quelli che prima erano riservati ai modelli flagship, in particolare quando i testi da analizzare, o le conversazioni, diventano lunghissime: può gestire ufficiosamente decine di migliaia di token, anche fino a 256.000, e in alcuni casi configurazioni che permettono estensioni ancora maggiori.

La variante “Thinking”, pensata per compiti che richiedono ragionamenti complessi, mostra che non è solo questione di lunghezza del testo, ma anche di profondità del pensiero: Qwen3-Next supera versioni “intermedie” del modello precedente e si avvicina, in vari benchmark, a modelli chiusi da più tempo considerati molto forti in questo tipo di compiti.

Cosa permette tutto questo? Dietro le quinte Alibaba ha introdotto alcune innovazioni architetturali. Ha mescolato meccanismi di attenzione “ibridi”, che non si accontentano del classico modulo di self-attention, ma inseriscono varianti che rendono più efficiente l’uso del contesto, migliorando la capacità del modello di “capire” cosa è rilevante anche in testi molto lunghi. Ha sfruttato una versione molto sparsa del cosiddetto “Mixture of Experts” (MoE), attivando solo una piccola frazione degli esperti quando serve, il che abbassa drasticamente la quantità di calcolo necessaria per produrre risposte. È stato introdotto anche un metodo di previsione multi-token che aiuta nelle fasi di generazione del testo perché permette al modello di prevedere più token in parallelo in alcune condizioni, accelerando l’output. Tutto ciò richiede anche accorgimenti speciali per mantenere il modello stabile durante l’addestramento, perché MoE + contesti lunghi tendono a generare sfide come variazioni impreviste, instabilità nei gradini di apprendimento, instabilità numeriche, e Alibaba sostiene di aver lavorato su queste criticità, usando normalizzazioni attentive e altri accorgimenti che mantengono un addestramento “duro” ma controllato.

Quando si guarda in concreto cosa significa tutto ciò per chi lavora con modelli di linguaggio, le implicazioni diventano piuttosto rilevanti. Aziende o progetti che gestiscono documenti molto lunghi — archivi, libri, conversazioni molto estese, trascrizioni lunghe, codice — possono beneficiare di un modello che tiene conto di contesto assai più ampio senza far esplodere i costi. Chiamate, risposte, generazioni, tutto diventa più fluido perché non si è costretti a “tagliare” il contesto per motivi di efficienza. Allo stesso modo, chi ha limiti di risorse hardware, magari non ha una flotta di GPU di ultima generazione, può comunque pensare di utilizzare questi modelli in modo produttivo, perché la parte attivata (quella che lavora davvero) è molto più contenuta rispetto al totale.

Naturalmente, non tutto è perfetto e non tutti i problemi sono magicamente risolti. Una architettura più complessa introduce maggior rischio di bug difficili da diagnosticare, maggiori sfide nell’ottimizzazione, e la necessità di test rigorosi per vedere come si comporta il modello su dati reali, rumorosi, non “puliti” come quelli da laboratorio. Anche la latenza quando il contesto è enorme può diventare un fattore, nonostante i miglioramenti, specialmente se l’infrastruttura dietro (memoria, I/O, rete) non è all’altezza. Inoltre, pur attivando pochi parametri, il modello rimane comunque grande nella sua struttura totale, il che richiede sforzi per addestramento, manutenzione, sicurezza, bias, gestione etica dei dati con cui è stato costruito.

Se tutto va come promette Alibaba, vedremo modelli che riescono a fare cose prima appannaggio solo di chi aveva grandi risorse, perché Qwen3-Next sembra far vedere che una buona architettura può rendere l’innovazione più democratica. Però come sempre, le promesse vanno testate, con casi reali, con trasparenza, con verifiche. Il modello può essere una pietra miliare, ma resta da vedere quanto distante siamo dal “mondo perfetto” idealizzato nei comunicati.

Di Fantasy