Le aziende sono sempre più alla ricerca di soluzioni in grado di comprendere e analizzare dati visivi complessi. Cohere, una compagnia canadese specializzata in modelli linguistici avanzati, ha recentemente presentato Command A Vision, un modello visivo multimodale progettato per affrontare le sfide specifiche del settore enterprise.
Command A Vision è costruito sull’architettura Command A di Cohere, una rete neurale da 112 miliardi di parametri che integra capacità visive e linguistiche. Questo modello è stato progettato per eseguire su due GPU, rendendolo accessibile anche a realtà aziendali con risorse hardware limitate. Rispetto ad altri modelli di grandi dimensioni, Command A Vision offre prestazioni elevate con un costo totale di proprietà inferiore, grazie alla sua efficienza e scalabilità.
Una delle caratteristiche distintive di Command A Vision è la sua abilità nell’analizzare una vasta gamma di contenuti visivi, tra cui grafici, diagrammi, manuali tecnici e documenti scansionati. Questa versatilità lo rende particolarmente utile per applicazioni aziendali che richiedono l’interpretazione di dati complessi e non strutturati. Il modello è in grado di eseguire operazioni di riconoscimento ottico dei caratteri (OCR) con alta precisione, facilitando l’estrazione di informazioni da immagini contenenti testo.
Nei test comparativi, Command A Vision ha superato altri modelli visivi di riferimento, come GPT-4.1 di OpenAI, Llama 4 Maverick di Meta e Pixtral Large di Mistral, ottenendo una media dell’83,1% in diverse metriche di valutazione. Questi risultati evidenziano l’efficacia del modello nell’affrontare compiti complessi di analisi visiva, come la comprensione di diagrammi e la risposta a domande basate su immagini.
Cohere ha scelto di rendere disponibile Command A Vision con pesi aperti, promuovendo l’adozione del modello da parte delle aziende e della comunità di sviluppatori. Questa decisione riflette l’impegno dell’azienda verso la trasparenza e la collaborazione, elementi fondamentali per l’innovazione nel campo dell’intelligenza artificiale.