Fino a poco tempo fa, quando si parlava di intelligenza artificiale “potente”, il primo pensiero correva a modelli con centinaia di miliardi, perfino trilioni, di parametri. Modelli colossali addestrati su enormi quantità di dati, che richiedono infrastrutture massive, data center sofisticati, investimenti elevati in hardware e consumo energetico non da poco. Ma sta emergendo una controtendenza, un cambiamento più sottile ma profondo, che sfida l’assunto per cui “più grande = meglio”.
Meta ha recentemente mostrato questo nuovo paradigma attraverso MobileLLM-R1, una famiglia di modelli di ragionamento che rientrano nella categoria dei cosiddetti “SLM” (Small Language Models). Sono modelli che pesano meno di un miliardo di parametri — versioni da 140 milioni, 360 milioni, fino a 950 milioni — e che vengono progettati non per fare tutto, ma per fare bene poche cose specifiche: matematica, codice, ragionamento scientifico. Non sono modelli generalisti da chat, non sono pensati per tenere conversazioni lunghe o variegate: sono specialisti.
Quello che colpisce è come sia stato ottenuto questo equilibrio: Meta è ricorsa a una architettura “profonda e sottile” (“deep-and-thin”), che privilegia molteplici strati (layers) piuttosto che grossi vettori di embedding (cioè grandi dimensioni all’interno delle singole trasformazioni). Inoltre ha usato tecniche efficienti come il grouped-query attention, che permette di condividere parti dell’attenzione all’interno del modello riducendo il numero complessivo di parametri, risparmiando memoria e costi computazionali.
Addestrati su circa 5 trilioni di token — meno di molti modelli “giganti” — che includono anche dati “distillati” da versioni più grandi come Llama-3.1-8B-Instruct, questi modelli raggiungono prestazioni che non sembrano affatto da “versione ridotta”. Il modello da 950 milioni di parametri, per esempio, supera o si avvicina molto ad altri modelli commerciali o più grandi su benchmark come “MATH” o su test di coding come “LiveCodeBench”.
La spinta verso i modelli più piccoli non è solo questione di moda tecnologica, ma di necessità concreta per le imprese. I grandi modelli presentano una serie di ostacoli: costi imprevedibili quando si dipende da API di terzi, problemi di latenza, vincoli legati alla privacy, difficoltà a controllare versioni e aggiornamenti del modello quando si opera su servizi esterni cloud, dipendenza da connessioni stabili, e così via.
Con modelli più leggeri che possono funzionare su dispositivi locali — PC, telefoni, telefoni aziendali, hardware non troppo potente — molte di queste preoccupazioni svaniscono o vengono almeno mitigate. Non serve inviare ogni richiesta via internet, non serve un server costoso ogni volta, non serve preoccuparsi di latenza o privacy tanto quanto nel caso di comunicazione con server remoti.
Inoltre, le aziende possono pensare a una “flotta di specialisti” piuttosto che ad un unico modello mastodontico: modelli piccoli, addestrati o fine-tuned su compiti precisi che, messi insieme, coprono le varie necessità aziendali — verifica del compliance, moderazione dei contenuti, assistenza di sviluppo, analisi scientifiche leggere e così via.
Naturalmente, non tutto è immediatamente disponibile come “prodotto finito” per tutti. Un punto nodale è la licenza. MobileLLM-R1, per quanto promettente, è rilasciato sotto la FAIR Non-Commercial license, il che significa che per ora non può essere usato commercialmente o monetizzato direttamente. Avere una versione così potente e versatile ma non disponibile per un uso aziendale su larga scala limita l’impatto immediato.
Anche l’uso “specializzato” è una lama a doppio taglio: funziona molto bene per quei compiti per cui il modello è stato costruito (matematica, codifica, ragionamento scientifico), ma se serve qualcosa di meno definito, più aperto, più conversazionale, più “contesto vario”, allora questi modelli non sono la soluzione completa. Ci sarà sempre spazio per modelli più grandi, più generali, che facciano da “base” o da fallback.
Infine, la dipendenza da modelli più grandi per fornire dati distillati, per generare esempi, per “trasferire” competenze di ragionamento, indica che il motore dell’innovazione resta in parte appoggiato su quelle architetture più gigantesche. Si sta cambiando il rapporto di forza, non annullando il ruolo dei giganti.
Guardando al futuro, il movimento verso “tiny AI” (o almeno “AI più piccola, focalizzata”) potrebbe avere implicazioni profonde per molti settori. Per le imprese, vuol dire poter integrare l’intelligenza artificiale direttamente nei loro prodotti, nei loro strumenti quotidiani, anche negli ambienti più restrittivi — pensiamo a dispositivi mobili, a uffici remoti, a laboratori dove la connessione internet scarseggia, o dove la privacy dei dati è fondamentale (sanità, finanza, difesa).
Significa anche che le risorse hardware potranno essere sfruttate meglio: con modelli meno pesanti, meno consumo di energia, meno esigenza di infrastrutture cloud esuberanti, meno costi operativi. Anche la sostenibilità comincia ad entrare in gioco: modelli più piccoli possono essere usati più a lungo, implementati su dispositivi che già esistono, aggiornati più facilmente, consumare meno energia, e ridurre il loro impatto ambientale.
C’è poi un aspetto interessante legato all’organizzazione interna delle aziende: gestire una serie di modelli specialistici implica avere competenze nell’assemblaggio di sistemi che coordinino questi modelli, monitorino come interagiscono, comprendano quando uno fallisca o produca errori, quando serva scalare o sostituire uno specialista con un altro. In altre parole, non basta la potenza: serve anche cura del design, dell’integrazione, del controllo.