ServiceNow AI ha reso pubblico Apriel-1.5-15B-Thinker, un modello multimodale open-weights, cioè con pesi liberamente disponibili, concepito per operare con efficienza e prestazioni elevate, persino su una singola GPU.
L’obiettivo dichiarato è sfidare la dicotomia scala vs. efficienza: non puntare sempre e soltanto a dimensioni colossali, ma studiare percorsi di miglioramento architetturale e metodologico che consentano a modelli “meno mastodontici” di reggere il confronto con quelli più grandi, senza perdere troppo in qualità. E nei test, Apriel-1.5-15B-Thinker presenta risultati notevoli, piazzandosi ai vertici delle classifiche open source.
Apriel-1.5-15B-Thinker appartiene alla serie Apriel SLM (ServiceNow Language Models), e la sua architettura parte da una base esistente — il modello multimodale Pixtral-12B-Base-2409 sviluppato da Mistral — per poi compiere un’espansione mirata delle sue capacità. La “scalata in profondità” (depth upscaling) porta il numero di livelli del decodificatore da 40 a 48, con un riallineamento della rete di proiezione per far sì che il decodificatore espanso resti ben integrato con il codificatore visivo. In questo modo non si richiede un addestramento da zero, e si preserva la compatibilità con risorse limitate.
Continual Pretraining (CPT): in questa fase, il modello apprende competenze di ragionamento di base e comprensione multimodale attraverso dati misti (testo + immagini), inclusive di documenti e diagrammi. Successivamente, vengono affrontati compiti visivi sintetici (ricostruzione, abbinamento, rilevamento, conteggio) per rafforzare il ragionamento spaziale e compositivo. Le lunghezze delle sequenze sono spinte fino a 32.000 e 16.000 token, con perdita applicata selettivamente ai token di risposta in campioni strutturati con istruzioni.
Fine-tuning supervisionato (SFT): qui si interviene con dati di alta qualità che coprono matematica, programmazione, scienze, uso di strumenti ed esecuzione didattica. Due sottoprocedimenti SFT (uno su sottoinsiemi gerarchici, l’altro focalizzato su contesto a lungo termine) sono combinati tramite pesi per generare il checkpoint finale. Non si utilizza né reinforcement learning né ottimizzazione basata sulle preferenze dell’utente (RLAIF).
Il risultato è un modello che, nonostante la “modesta” taglia, riesce a competere su benchmark di rilievo, grazie all’approccio data-centrico piuttosto che semplicemente “grandioso per dimensioni”. Tutto il pacchetto — pesi, ricette di addestramento, protocolli di valutazione — è stato rilasciato sotto licenza MIT su Hugging Face, per garantire trasparenza e replicabilità nella comunità.
Il modello è progettato per poter essere eseguito su una singola GPU, rendendolo fruibile anche in ambienti con risorse limitate, server interni (on-premise) o scenari isolati (air-gapped). Questo aspetto lo rende particolarmente interessante per aziende, istituzioni o sviluppatori che non dispongono di infrastrutture gigantesche.
Inoltre, Apriel-1.5-15B-Thinker risulta “competitivo” anche su vari benchmark visivi: i dieci benchmark d’immagine mostrano che, mediamente, le sue prestazioni sono entro cinque punti da modelli come Gemini-2.5-Flash o Claude Sonnet-3.7. Un risultato degno di nota, considerando che non ha ricevuto una fase di SFT specifica per immagini.
Apriel-1.5-15B-Thinker offre una risposta importante: sì, è possibile fare “molto con poco”, se si progettano bene le fasi intermedie e si concentra l’innovazione non soltanto sulla scala, ma sull’efficienza e l’eleganza dei processi.