Cohere ha presentato Command A+, un modello linguistico open source pensato per portare capacità agentiche, multimodali e multilingue dentro ambienti enterprise controllabili, senza vincolare necessariamente le aziende a un’infrastruttura API esterna. Il punto centrale non è soltanto la disponibilità dei pesi del modello, ma il modo in cui il modello è stato progettato per ridurre il costo operativo dell’inferenza, rendere più verificabili le risposte e semplificare l’adozione in contesti nei quali prestazioni, privacy dei dati e controllo dell’infrastruttura sono requisiti tecnici primari.
Command A+ è un modello Sparse Mixture-of-Experts, con 218 miliardi di parametri complessivi e circa 25 miliardi di parametri attivi durante ogni passaggio di generazione. Questa architettura consente di mantenere una capacità modellistica ampia, ma di attivare solo una parte specializzata della rete per ciascuna richiesta, riducendo il carico computazionale effettivo rispetto a un modello denso di dimensioni equivalenti. In pratica, l’inferenza non deve attraversare l’intera struttura parametrica a ogni token generato, ma viene indirizzata verso gli “esperti” più rilevanti per il compito richiesto, con benefici diretti su latenza, consumo di memoria e costo di servizio.
La scelta dell’architettura MoE diventa ancora più rilevante se collegata alla quantizzazione. Command A+ viene distribuito in più formati, inclusi BF16, FP8 e W4A4 a 4 bit. La versione W4A4 rappresenta l’aspetto più interessante dal punto di vista infrastrutturale, perché permette di comprimere in modo molto aggressivo il modello mantenendo una degradazione qualitativa dichiarata come minima. Cohere ha lavorato sulla quantizzazione in modo selettivo, intervenendo sugli esperti del modello e preservando le componenti più sensibili del percorso di attenzione, così da evitare che la riduzione della precisione numerica si traduca in una perdita evidente nelle attività di ragionamento complesso.
Questo approccio è importante perché la quantizzazione dei modelli di ragionamento non è un semplice problema di compressione. Ridurre la precisione dei pesi può abbassare il consumo di memoria e accelerare l’esecuzione, ma spesso introduce errori sottili proprio nei compiti che richiedono coerenza logica, calcolo, pianificazione a più passaggi o uso di strumenti esterni. Con Command A+, Cohere punta a trasformare la quantizzazione da compromesso necessario a componente strutturale del deployment enterprise, rendendo possibile l’esecuzione del modello anche su configurazioni hardware più contenute rispetto a quelle richieste dai grandi modelli frontier chiusi.
Il modello può essere eseguito, nella configurazione W4A4, su una singola GPU NVIDIA Blackwell B200 oppure su due GPU NVIDIA H100. Per un’azienda, questa soglia hardware cambia il tipo di valutazione economica da fare prima dell’adozione: non si parla più necessariamente di cluster molto estesi o di dipendenza totale da endpoint esterni, ma di un modello che può essere portato dentro data center privati, ambienti cloud dedicati o infrastrutture isolate, mantenendo un profilo prestazionale adatto a carichi reali. È qui che il concetto di AI sovrana assume una forma concreta: controllo dei pesi, controllo dei dati, controllo dell’inferenza e maggiore prevedibilità dei costi.
Command A+ è stato progettato anche per carichi agentici, cioè per scenari nei quali il modello non si limita a generare testo, ma deve interrogare strumenti, leggere basi dati, richiamare API, analizzare documenti, coordinare passaggi intermedi e costruire una risposta finale a partire da fonti esterne. In questo tipo di utilizzo, la capacità di ragionare non è separabile dalla capacità di usare correttamente il contesto operativo. Un agente aziendale deve sapere quando cercare informazioni, quando non farlo, come integrare i risultati recuperati e come restituire un output verificabile.
La generazione nativa di citazioni e span di grounding è una delle funzioni più rilevanti in questa direzione. Quando il modello usa strumenti esterni o informazioni recuperate da documenti e database, può associare porzioni specifiche della risposta alle fonti che le supportano. Questo significa che una risposta non rimane una sintesi opaca, ma può essere collegata ai documenti, ai risultati di query o ai frammenti informativi da cui deriva. Nei settori regolati, come finanza, sanità, assicurazioni, pubblica amministrazione e ambito legale, questa tracciabilità è essenziale perché consente di distinguere una risposta semplicemente plausibile da una risposta verificabile.
L’integrazione tra tool use, RAG e citazioni native risponde a uno dei problemi più concreti dell’AI generativa in azienda: la difficoltà di controllare l’origine delle affermazioni prodotte dal modello. Un assistente interno che analizza contratti, report finanziari, ticket di assistenza, manuali tecnici o tabelle operative deve essere in grado di mostrare da dove proviene una determinata informazione. Non basta che la risposta sia fluida; deve essere ispezionabile, collegabile ai dati di origine e compatibile con audit, revisione umana e procedure di compliance.
Il modello introduce anche capacità multimodali native, con input testuali e visivi e una finestra di contesto da 128K token. Questo lo rende adatto a elaborare documenti complessi, immagini, report con grafici, manuali, fatture scannerizzate e materiali tecnici in cui l’informazione non è contenuta soltanto nel testo lineare. La combinazione tra contesto esteso e input multimodale permette di trattare casi d’uso enterprise nei quali il documento non è una semplice pagina, ma un insieme eterogeneo di testo, layout, tabelle, figure e annotazioni.
Sul fronte linguistico, Command A+ amplia il supporto a 48 lingue e introduce un tokenizer più efficiente, con miglioramenti particolarmente rilevanti per lingue non europee come arabo, giapponese e coreano. Questo aspetto ha una conseguenza economica diretta, perché nei sistemi generativi il costo di inferenza è spesso legato al numero di token elaborati e prodotti. Una tokenizzazione più compatta riduce il volume computazionale necessario per rappresentare la stessa informazione, migliorando la sostenibilità di applicazioni multilingue distribuite su mercati diversi.
La licenza Apache 2.0 è un altro elemento tecnico e strategico di peso. Rispetto a licenze più restrittive, consente utilizzo, modifica, distribuzione e impiego commerciale con maggiore libertà, rendendo Command A+ più adatto a progetti in cui le aziende vogliono costruire soluzioni proprietarie sopra un modello aperto. Per i team di sviluppo significa poter sperimentare, ottimizzare, integrare e portare in produzione il modello senza dover ripensare l’intera architettura in funzione di vincoli d’uso troppo rigidi.
Command A+ si inserisce quindi in una fase in cui l’apertura dei modelli non riguarda più solo la ricerca o la sperimentazione, ma la possibilità di costruire applicazioni AI aziendali realmente governabili. L’interesse non sta nel rilascio dei pesi in sé, ma nella combinazione tra licenza permissiva, efficienza hardware, quantizzazione a bassa precisione, capacità agentiche, supporto multimodale e citazioni verificabili. Per molte organizzazioni, questa combinazione può ridurre la distanza tra prototipo e produzione, perché affronta contemporaneamente i problemi di costo, controllo, prestazioni e affidabilità documentale.
La direzione tecnica è chiara: i modelli enterprise non vengono valutati soltanto per la loro posizione nei benchmark, ma per la loro capacità di funzionare dentro sistemi reali, con dati privati, strumenti interni, vincoli infrastrutturali e necessità di audit. Command A+ prova a occupare proprio questo spazio, offrendo un modello aperto che non punta solo alla generazione di testo, ma alla costruzione di agenti verificabili e distribuibili in ambienti aziendali complessi.
