Immagine AI

Quando Alibaba ha annunciato la nuova variante della famiglia Qwen3 dal nome impronunciabile, molti hanno guardato subito ai numeri: 235 miliardi di parametri totali, 22 miliardi attivi per token grazie a un router da mixture‑of‑experts, benchmark che la mettono davanti a Kimi‑2 e in buona posizione rispetto a modelli occidentali blasonati.

Ma la vera storia interessante, soprattutto per chi deve portare un LLM in produzione, è nascosta nella scelta del formato numerico: oltre alla classica FP16 o BF16, Alibaba offre una versione in FP8, quel formato a 8 bit floating point che Nvidia ha trasformato in standard de facto con le GPU Hopper. Con FP8, le operazioni si fanno più leggere, i consumi energetici calano, la memoria si libera, e il throughput aumenta, il tutto senza distruggere la qualità se si calibra bene il flusso di attivazioni. È un compromesso raffinato, in cui alcuni layer più delicati restano a precisioni superiori, mentre grandi parti della rete scendono a 8 bit, guadagnando in efficienza.

L’architettura di Qwen3 non rivoluziona i Transformer, ma ne spinge all’estremo l’arte dell’ingegneria: gating top‑k per distribuire il carico sugli esperti, posizionamenti rotary per gestire sequenze lunghe, addestramento su un mare di token multilingue, con un’attenzione particolare al coding e alla costruzione di capacità agentiche, perché i modelli di oggi non devono solo rispondere, devono saper agire dentro ecosistemi fatti di strumenti, API, protocolli.

Dal punto di vista delle imprese, la licenza permissiva è un invito a sporcarsi le mani: puoi prendere il modello, adattarlo, integrarlo, persino ridurlo ulteriormente con tecniche di quantizzazione consapevole. Devi però assumerti la responsabilità di governare il router per non far collassare la distribuzione su pochi esperti, valutare con cura la factuality dopo ogni fine‑tuning, orchestrare in modo efficiente il parallelismo su cluster che non sempre sono fatti di sole H100. Ma è il prezzo per avere un motore così potente a propria disposizione, pronto a essere cucito su misura.

Di Fantasy