C’è un paradosso che comincia a emergere nel mondo dell’intelligenza artificiale: fino a ieri, “grande” voleva dire “potente”, “capace”, “adatto a qualunque compito”. Ma oggi una nuova generazione di modelli di dimensioni contenute sta sfidando quell’equazione. Ed è proprio in questo orizzonte che si inserisce Jamba Reasoning 3B, l’ultimo modello open source presentato da AI21 Labs, che promette di ripensare il concetto di “small” nel panorama degli LLM (Large Language Models). Secondo l’articolo di VentureBeat, Jamba è in grado di gestire finestre contestuali da oltre 250.000 token direttamente su dispositivi — come laptop o perfino cellulari — mantenendo prestazioni significative e aprendo scenari nuovi sull’AI distribuita.
Il cuore dell’innovazione di Jamba sta nella fusione fra quella che AI21 chiama architettura “Mamba” e i tradizionali meccanismi Transformer. È una combinazione che, nelle intenzioni dei suoi autori, riduce i requisiti di memoria e ottimizza le prestazioni: l’obiettivo è infatti poter eseguire inferenze complesse su dispositivi con risorse limitate, anziché delegare tutto ai server distanti. In test condotti su un MacBook Pro, il modello ha raggiunto circa 35 token al secondo, una cifra che — pur non pensando a prestazioni da data center — è notevole se consideriamo la quantità di contesto che gestisce.
Ciò che rende veramente audace questa proposta è la capacità di Jamba di operare con finestre contestuali lunghe: l’idea di poter alimentare un modello con decine o centinaia di migliaia di token apre a una continuità dell’“attenzione” ben diversa da quanto siamo abituati. In molti scenari reali — dalla documentazione tecnica al codice sorgente, dai lunghi contratti legali ai dialoghi estesi — una maggiore memoria contestuale può fare davvero la differenza. AI21 sostiene che il modello è in grado di gestire non solo funzioni generali di linguaggio e ragionamento, ma anche “function calling”, instradamento verso strumenti (tool routing), e generazioni conformi a policy: compiti che richiedono struttura, coerenza e controllo.
In fase di benchmark, Jamba Reasoning 3B ha sfidato altri modelli considerati “piccoli” o “medi”, come Qwen 4B, Meta Llama 3.2B-3B e Phi-4-Mini. Il risultato è che, in test come IFBench e diğer prove di ragionamento, Jamba ha superato molti dei concorrenti. Tuttavia, in alcuni benchmark più generali come MMLU-Pro è arrivato secondo rispetto a Qwen 4. Ciò suggerisce che non c’è ancora un vincitore assoluto, ma che Jamba si colloca su un fronte competitivo molto interessante.
Perché questo modello fa davvero notizia? In primo luogo perché incarna una visione ibrida per il futuro dell’AI: non tutto dovrà avvenire nei data center. AI21 stessa afferma che, nell’industria, i costi di infrastruttura per i centri dati sono elevati e spesso non giustificati dal valore prodotto. Spostare inferenze su dispositivi locali libera risorse e può migliorare latenza, privacy e autonomia. In questa prospettiva, il mondo futuro dell’AI sarà probabilmente “ibrido”, con parti del calcolo svolte localmente e altre in GPU cluster dedicati.
La dimensione aziendale è un terreno fertile per questa visione: per imprese che gestiscono dati sensibili o che vogliono ridurre la dipendenza da cloud esterni, un modello come Jamba può offrire vantaggi reali. Processi che richiedono privacy, governabilità e rapidità possono essere protetti, evitando che ogni richiesta passi attraverso infrastrutture pubbliche. La gestione “on device” di inferenze significa anche un grado di indipendenza maggiore, potenzialmente con meno latenza e minori costi di banda.