Immagine AI

Quando pensi a una piattaforma di consegna di cibo, probabilmente immagini scooter che sfrecciano tra le vie di Pechino, una app che ti traccia l’ordine in tempo reale e chef che impacchettano piatti deliziosi. In pochi assocerebbero quell’azienda a un laboratorio di intelligenza artificiale avanzata. E invece è proprio da lì che proviene LongCat-Flash, il nuovo modello open source lanciato da Meituan, che mira a cambiare lo scenario dei modelli linguistici aperti.

Meituan, che in Cina è già un “super app” (non solo consegne di cibo, ma servizi locali, retail, logistica), ha deciso di giocare un ruolo da protagonista nell’universo AI. Con la pubblicazione di LongCat-Flash e della sua evoluzione, LongCat-Flash-Thinking, l’azienda cinese si è messa in corso per competere con i giganti del settore, offrendo modelli estremamente potenti e accessibili sotto licenza permissiva.

Il nome — “LongCat” — evoca già qualcosa di lungimirante, di esteso, e in effetti il modello è ambizioso. LongCat-Flash è un modello di tipo mixture-of-experts (MoE) che, pur avendo un conteggio totale di 560 miliardi di parametri, attiva soltanto tra i 18,6 e i 31,3 miliardi di essi per ogni token. Questo significa che, anziché “mettere in moto” l’intero modello ogni volta, LongCat-Flash decide dinamicamente quali parti utilizzare in funzione del contesto.

Questa strategia consente un equilibrio tra potenza e efficienza: non serve usare l’intero modello per ogni frase, ma solo i sotto‐modellI rilevanti, riducendo i costi computazionali inutili. Inoltre, Meituan ha introdotto elementi come gli “zero-computation experts” (esperti che non richiedono computazione quando non sono necessari) e un’architettura “shortcut-connected MoE” che migliora il flusso tra calcolo e comunicazione.

Nella pratica, LongCat-Flash riesce a superare la soglia dei 100 token per secondo durante l’inferenza, un risultato notevole considerando le sue dimensioni. Anche il costo è calibrato: l’inferenza dei token costa circa 0,70 USD per milione di token, un valore competitivo data la complessità del modello.

Per quanto riguarda le prestazioni, LongCat-Flash non è un semplice “mostro di potenza”: nei test di vari compiti — ragionamento, generazione di codice, compiti agentici — compete con i modelli più affermati. Il modello è stato addestrato con una pipeline che unisce pre-training generico, fine-tuning su ragionamento e codice e utilizzo di dati sintetici e compiti con strumenti (tool use).

Il rilascio è stato realmente open source: i pesi del modello, il codice, i dettagli tecnici sono disponibili su GitHub e Hugging Face, tutto sotto licenza MIT, che permette usi commerciali purché la licenza sia inclusa.

Ma Meituan non si è fermata al modello “generale”. Il passo successivo è LongCat-Flash-Thinking, una versione specializzata per il ragionamento complesso. Il punto è questo: un modello può essere molto bravo a generare testo, ma il vero salto qualitativo è “capire come ragionare” quando la risposta richiede più passaggi logici, matematica, pianificazione, uso di strumenti. È lì che entra in gioco Flash-Thinking.

Per creare questa variante, Meituan ha adottato una strategia in più fasi: prima un “cold start reasoning training”, dove il modello viene abituato a pensare per passi logici, con dati di ragionamento, matematica e compiti agentici; poi un “reinforcement learning su larga scala”, sfruttando un sistema chiamato DORA (Dynamic Orchestration for Asynchronous rollout) per ottimizzare parallelamente in ambiti come STEM, programmazione e compiti agentici, prima di fondere questi apprendimenti in un sistema unico che bilancia le capacità.

I risultati sono impressionanti. In matematica pura, Flash-Thinking raggiunge valori molto vicini a quelli di modelli proprietari come GPT-5, superandoli addirittura in alcuni compiti specializzati come la dimostrazione formale di teoremi. Nei benchmark di codifica, ragionamento e uso di strumenti, si pone ai vertici della categoria open source, avvicinandosi o rivaleggiando con modelli chiusi.

Un caso clamoroso è la dimostrazione di teoremi formali: su MiniF2F, Flash-Thinking ottiene 81,6% (pass@32), battendo nettamente GPT-5 (51,2%) in quel compito. Ciò indica che l’addestramento parallelo nei domini e la fusione del ragionamento specializzato porta vantaggi reali nei compiti logici intensivi.

In termini di “token budget”, Flash-Thinking è anche efficiente: su compiti come AIME-25, riduce il consumo di token del 64,5 % rispetto a modelli di ragionamento baseline, mantenendo la stessa accuratezza.

Per accedere al modello, Meituan offre un’API con una quota gratuita giornaliera di 500.000 token, con possibilità di estensione fino a 5 milioni (gratuitamente, previa approvazione). I pesi sono disponibili anche per essere eseguiti localmente, su hardware privati o in cloud.

L’ingresso di Meituan nel panorama dei modelli open source è strategico su più fronti. Da una parte, rafforza la posizione dell’azienda non solo come piattaforma di servizi locali, ma come player tecnologico con competenze AI di avanguardia. In Cina, la corsa all’AI è accesa, e ogni gigante tecnologico vuole mostrare la propria capacità innovativa.

Dall’altra, l’open sourcing di LongCat-Flash e Flash-Thinking offre al mondo della ricerca e dell’industria una risorsa preziosa: un modello avanzato accessibile, modificabile, verificabile da chiunque. Ciò abbassa barriere di ingresso, stimola sperimentazione e trasparenza, e può fungere da catalizzatore per soluzioni AI specialistiche in molte lingue e contesti.

In ambienti aziendali, avere un modello open source potente significa poterlo personalizzare, migliorare la sicurezza, adattarlo a vincoli locali o normativi senza dipendere da fornitori terzi. Il fatto che LongCat sia distribuito con licenza MIT — una delle più permissive — è una scelta chiara verso un’adozione industriale più libera.

La complessità dell’architettura Mixture-of-Experts, comunque, richiede infrastrutture sofisticate per addestramento e inferenza. Far girare 560 miliardi di parametri — anche se molti disattivati per ogni token — richiede calcolo, memoria, comunicazione efficiente. L’ottimizzazione per latenze basse e throughput elevato è un’arte: Meituan ha dovuto introdurre strategie sofisticate (come la disaggregazione prefilling/decoding, pipeline a stadi sovrapposti, parallelismo esperto) per rendere il modello praticabile in scenari interattivi.

Inoltre, la generalizzazione: Flash-Thinking è stato addestrato con una combinazione di dati generici, ragionamento, strumenti e sintesi. Ma domande aperte restano su come si comporterà in compiti reali complessi, con contesti non contemplati nei dati di training. E ancora: come mantenere l’allineamento (sicurezza, correttezza, priva di bias) in un modello tanto potente, accessibile pubblicamente?

Infine, l’aspetto geometrico del panorama AI: LongCat-Flash rappresenta uno dei numerosi modelli open source emergenti che cercano di competere con sistemi proprietari. È un segno che la dominanza dei modelli “chiusi” non è più una barriera insormontabile — l’ecosistema open sta attivamente costruendo concorrenti capaci e maturi.

Di Fantasy