NC AI, la divisione di intelligenza artificiale di NCSoft, ha presentato al mondo il suo nuovo modello linguistico di visione multimodale (VLM) ultraleggero: VARCO VISION 2.0 1.7B. Questo modello rappresenta una pietra miliare nell’evoluzione dell’IA, combinando prestazioni avanzate con un’architettura ottimizzata per dispositivi personali come smartphone e PC. La sua capacità di comprendere simultaneamente immagini e testo lo rende particolarmente adatto per applicazioni in tempo reale, come assistenti virtuali, analisi di documenti complessi e interazione con contenuti visivi.
VARCO VISION 2.0 1.7B è progettato per funzionare efficacemente su dispositivi con risorse limitate, grazie alla sua architettura compatta da 1,7 miliardi di parametri. Nonostante le dimensioni contenute, il modello offre prestazioni superiori a quelle di altri modelli leggeri esistenti, come InternVL3 2B e Ovis2 2B, specialmente nell’elaborazione del testo e nella lingua coreana. Questa caratteristica lo rende ideale per l’uso in ambienti on-device, riducendo la necessità di connessioni cloud e migliorando la privacy e la velocità di risposta.
VARCO VISION 2.0 1.7B ha ottenuto risultati di prim’ordine in vari benchmark internazionali. Ha superato modelli open source globali come InternVL3 2B e Ovis2 2B in termini di elaborazione del testo e prestazioni nella lingua coreana. Inoltre, ha mostrato prestazioni pari o superiori a modelli multimodali di livello 3B, come ‘Kanana 3B’ di Kakao e ‘Hyperclova 3B’ di Naver, in benchmark come MMMU e AI2D. Questi risultati evidenziano la sua capacità di competere con modelli di dimensioni maggiori, offrendo al contempo un’efficienza superiore per l’uso su dispositivi personali.
Una delle caratteristiche distintive di VARCO VISION 2.0 1.7B è la sua abilità nel comprendere e analizzare simultaneamente più immagini e testi. Questo gli consente di gestire efficacemente documenti complessi, tabelle e grafici, offrendo risposte contestualizzate e pertinenti. Inoltre, il modello è specializzato nella lingua coreana, con una comprensione più profonda del contesto culturale, migliorando la qualità e la naturalezza delle risposte generate.
Il modello include funzionalità avanzate di riconoscimento ottico dei caratteri (OCR), che gli permettono di identificare e localizzare il testo all’interno delle immagini, fornendo anche i relativi riquadri di delimitazione. Questa capacità è particolarmente utile per l’interpretazione di segnaletica, la comprensione di documenti e l’analisi di dati strutturati. Inoltre, VARCO VISION 2.0 1.7B è stato progettato con miglioramenti nella robustezza e nel filtraggio, garantendo una gestione più sicura dei contenuti dannosi o espliciti.
La decisione di NC AI di rilasciare VARCO VISION 2.0 1.7B come open source rappresenta un impegno verso l’indipendenza tecnologica e la democratizzazione dell’intelligenza artificiale. Questo approccio consente a sviluppatori, ricercatori e aziende di accedere a una tecnologia avanzata senza le barriere imposte da modelli proprietari o da dipendenze da infrastrutture cloud. Come sottolineato dal CEO di NC AI, Lee Yeon-soo, “Continueremo a fare del nostro meglio per sviluppare modelli di intelligenza artificiale ad alte prestazioni che siano facilmente accessibili a più persone”.