Xiaomi ha annunciato una riduzione permanente dei prezzi delle API della propria serie di punta MiMo-V2.5, con sconti che arrivano fino al 99% ed entrati in vigore dal 27 maggio nell’orario locale, una mossa che colloca l’azienda al centro della competizione tariffaria che sta attraversando il mercato cinese dei grandi modelli linguistici e che ha come riferimento diretto la politica aggressiva di prezzo adottata da DeepSeek. L’intervento non si limita a una semplice limatura dei listini, perché abolisce il complesso sistema di tariffazione precedente basato sulla lunghezza del contesto e introduce una tariffa unica applicata in modo uniforme a tutte le fasce di contesto, semplificando in maniera sostanziale la struttura di costo per gli sviluppatori. Contestualmente è stato riformato anche il piano a consumo di token, il Token Plan, che a parità di spesa consente ora di elaborare un volume di token da cinque a otto volte superiore rispetto alla configurazione precedente.
La riduzione più marcata riguarda il modello di ragionamento ad alte prestazioni MiMo-V2.5-Pro, dove il costo di input con cache hit, ovvero il prezzo applicato quando il prefisso della richiesta è già presente nella cache del sistema e non deve essere rielaborato, è crollato dal precedente massimo di 2,80 yuan per milione di token a 0,025 yuan per milione di token, mentre il prezzo dell’input non in cache è stato ridotto fino al 79% e quello dell’output fino all’86%. Il modello generalista MiMo-V2.5 ha visto scendere i prezzi di input e output fino al 98%, e il modello di sintesi vocale MiMo-V2.5-TTS mantiene una politica di gratuità temporanea finalizzata all’acquisizione di utenti. La struttura tecnica che rende sostenibile questa politica è quella dell’architettura Mixture-of-Experts su cui poggia MiMo-V2.5, un modello che dispone di oltre mille miliardi di parametri complessivi ma ne attiva soltanto una frazione per ciascun token elaborato, riducendo in misura significativa il costo computazionale dell’inferenza e rendendo possibile un prezzo per token molto basso senza che ciò comprometta necessariamente la sostenibilità economica del servizio.
L’aspetto strategicamente più rilevante di questa manovra è l’allineamento quasi perfetto con i listini di DeepSeek-V4 Pro, che ha conquistato rapidamente quote di mercato con una tariffa di 3 yuan per milione di token in input e 6 yuan per milione di token in output. Adottando la medesima fascia di prezzo, Xiaomi consente agli sviluppatori di passare liberamente dall’uno all’altro modello senza alcun onere aggiuntivo, una condizione che trasforma i due servizi in alternative direttamente sostituibili sul piano economico e sposta il terreno della concorrenza dalla leva del prezzo a quella della qualità delle risposte, della latenza e dell’affidabilità nelle attività complesse. La stessa Xiaomi ha attribuito la possibilità di questi tagli all’ottimizzazione dell’inferenza e al miglioramento dell’efficienza del servizio, annunciando la pubblicazione di un blog tecnico dedicato, e gli analisti del settore leggono l’operazione non come una semplice iniziativa di marketing ma come il risultato diretto della competizione sull’efficienza delle infrastrutture di intelligenza artificiale, dove i guadagni ingegneristici nella gestione del calcolo si traducono in margine disponibile per ridurre i prezzi.
Il mercato cinese delle API sta manifestando in modo sempre più netto un fenomeno di polarizzazione a forma di K, dove convivono due strategie opposte che si allontanano progressivamente. Da un lato i grandi operatori orientati al prezzo basso e all’acquisizione di massa degli utenti, gruppo che comprende il Tongyi Qianwen di Alibaba Cloud, il Doubao di ByteDance, MiMo di Xiaomi e DeepSeek; dall’altro gli operatori che hanno scelto la via del posizionamento premium e che stanno addirittura alzando i prezzi per rivolgersi al mercato enterprise ad alta affidabilità, come la serie GLM di Zhipu AI e Kimi di Moonshot AI. Il dato che illustra meglio la solidità della strategia premium riguarda proprio Zhipu, che nel primo trimestre dell’anno ha aumentato i prezzi delle API in misura cumulata dell’83% registrando al contempo una crescita del 400% nelle richieste da parte delle imprese, un andamento che si spiega con il fatto che nelle attività agentiche complesse e negli ambienti di generazione di codice il parametro decisivo non è più il prezzo unitario del token ma il tasso di successo del compito. Un modello dal costo unitario più elevato che produce il risultato corretto al primo tentativo può infatti ridurre il consumo complessivo di token rispetto a un modello più economico che richiede ripetuti tentativi, ribaltando il calcolo di convenienza apparente fondato sul solo prezzo di listino.
La lettura che gli esperti danno di questa fase è che il mercato cinese delle API sia ormai uscito dallo stadio della pura guerra dei prezzi per entrare in una competizione di lungo periodo fondata sugli ecosistemi. I grandi gruppi piattaforma come Alibaba, ByteDance e Xiaomi possono permettersi una strategia di prezzo basso perché non puntano alla redditività diretta dell’API ma agli effetti di traino sul cloud, sulla pubblicità, sull’hardware e sull’espansione complessiva del proprio ecosistema, traguardi rispetto ai quali l’API funziona da porta di accesso e da strumento di fidelizzazione. Le start-up, al contrario, devono coprire i costi di ricerca, sviluppo e calcolo attingendo ai ricavi diretti dell’API, condizione che le spinge con alta probabilità a mantenere un posizionamento premium incentrato sulla qualità. I dati delle società di ricerca di mercato confermano la direzione del fenomeno, perché nell’ultimo anno il costo medio delle chiamate ai grandi modelli per uso aziendale è sceso del 67% e la quota di mercato enterprise dei modelli open source si sta ampliando rapidamente. La conseguenza prevista è la diffusione fra i clienti aziendali di una strategia di multi-model routing, in cui i modelli economici vengono impiegati per le attività ripetitive e di basso valore mentre i modelli premium vengono riservati ai compiti di ragionamento ad alta difficoltà, superando la dipendenza da un singolo fornitore e ottimizzando il rapporto fra costo e affidabilità in funzione della natura di ciascuna richiesta.
