Immagine AI

Quando IBM ha presentato Granite 4.0, non è stato soltanto l’annuncio di un nuovo modello linguistico, ma un segnale forte che “Big Blue” intende ritornare protagonista nel panorama degli LLM opensource, competendo con le famiglie di modelli cinesi (come Qwen di Alibaba) e con le soluzioni emergenti dell’Occidente. Il titolo dell’articolo su VentureBeat lo incornicia bene: “’Western Qwen’: IBM wows with Granite 4 LLM launch and hybrid Mamba/Transformer architecture”.

Il punto di forza che IBM mette in vetrina è la nuova architettura ibrida Transformer-Mamba alla base di Granite 4.0. Da un lato, i moduli Transformer che dominano la scena attuale per la loro capacità di catturare relazioni complesse fra token; dall’altro, l’architettura Mamba (derivata dagli studi sulle state space models come S4) che promette un’elaborazione lineare e più efficiente della sequenza, specialmente su contesti lunghi.

L’idea è elegante nella sua ambizione: combinare l’“attenzione” estesa dei Transformer con la scalabilità della struttura Mamba, per ottenere modelli in grado di gestire documenti molto lunghi, più simultaneità e con una richiesta di memoria inferiore. In pratica, quando il carico computazionale e la dimensione del contesto crescono, la parte Mamba aiuta a contenere l’esplosione dei costi, mentre i Transformer mantengono precisione e potere di ragionamento dove serve.

Uno degli aspetti più sorprendenti è che, secondo i benchmark presentati da IBM, Granite 4.0 può ridurre il consumo di memoria GPU “in produzione” del 70 % rispetto ai modelli basati esclusivamente su Transformer, soprattutto nei casi con contesti estesi o con sessioni multiple attive contemporaneamente.

Ma la famiglia Granite non è monolitica: IBM offre varianti più leggere e specializzate. C’è Granite-4.0-H-Small, un modello mixture-of-experts ibrido con parametri attivi selezionati, progettato per funzionare bene anche su una singola GPU H100. Ci sono varianti “Tiny” e “Micro” per casi d’uso più modesti, e anche una versione Granite-4.0-Micro che è pura Transformer, pensata per ambienti dove l’ottimizzazione Mamba non è ancora supportata.

Non meno rilevante è la politica con cui IBM rilascia questi modelli: con licenza Apache 2.0, open source, firmati crittograficamente per garantirne l’integrità, e con certificazione ISO/IEC 42001 per governance, trasparenza e sicurezza. È un modo per offrire non solo performance, ma anche affidabilità e conformità normativa: aspetti che per le organizzazioni contano quanto – se non più – della pura potenza.

Nei benchmark, Granite 4.0 appare solido. Su HELM IFEval (un test di capacità di seguire istruzioni), la variante Granite-4.0-H-Small si posiziona appena dietro modelli open weight di grandi dimensioni, davanti a molti concorrenti. Su attività tipo retrieval-augmented generation (RAG) e function calling, offre prestazioni competitive rispetto agli standard del settore. Del resto, IBM dichiara che le versioni più piccole di Granite 4.0 superano, in alcuni casi, il loro predecessore Granite 3.3, pur utilizzando meno parametri attivi.

Un elemento che non deve essere sottovalutato è la certificazione ISO/IEC 42001: è la prima volta che un modello open source riceve un’adesione simile. Questo conferisce a Granite una credibilità che va oltre la ricerca pura: è un segno che IBM punta ai mercati enterprise, dove compliance, auditabilità e governance sono requisiti imprescindibili.

Dal punto di vista strategico, questo lancio può essere visto come una risposta alla crescente influenza dei modelli open source cinesi. Con Qwen e altri modelli emergenti, molte aziende guardano soprattutto alle performance e ai costi: IBM entra in campo offrendo alternative “occidentali”, open, ma con garanzie per il mondo enterprise. Il paragone nel titolo — “Western Qwen” — rammenta proprio questo: IBM vuole proporre una famiglia di LLM che, pur nascendo negli Stati Uniti, possa competere con le soluzioni provenienti da altri ecosistemi.

Naturalmente, restano da verificare alcune sfide sul campo: come si comporteranno i modelli ibridi in scenari estremi? Qual è il trade-off reale fra efficienza e accuratezza su compiti complessi? E quanto sarà agevole adottare e integrare queste nuove architetture negli stack esistenti? Ma già nei propositi e nelle specifiche tecniche, Granite 4.0 segna un passo deciso verso un equilibrio fra innovazione architetturale, sostenibilità operativa e affidabilità aziendale.

Di Fantasy