L’evoluzione dell’intelligenza artificiale sta rapidamente superando la fase in cui le macchine si limitavano a generare testi o immagini, entrando in una nuova dimensione dominata dall’azione diretta. Recentemente, Xenon, società guidata dal CEO Seok-Tae Koh, ha segnato un punto di svolta fondamentale con la presentazione di Hunmin VLM 235B. Si tratta di un modello di linguaggio visivo (VLM) di nuova generazione, progettato con un obiettivo estremamente ambizioso: permettere all’intelligenza artificiale di identificare, comprendere e manipolare con precisione millimetrica gli elementi che appaiono sullo schermo di un computer, proprio come farebbe un utente umano.
Questo nuovo rilascio rappresenta un salto tecnologico notevole rispetto al precedente modello Hunmin 32B presentato l’anno scorso. Con i suoi 235 miliardi di parametri, il nuovo sistema non si limita a un semplice incremento di potenza, ma introduce un’intelligenza visiva raffinata, capace di operare in contesti reali e complessi. La particolarità di Hunmin VLM 235B risiede nella sua capacità di colmare il divario tra la conoscenza teorica dei grandi modelli linguistici e l’abilità pratica richiesta per interagire con interfacce grafiche, siti web e software professionali. Xenon ha scelto di rendere pubblica l’intera struttura dei dati di addestramento e i pesi del modello sulla piattaforma Hugging Face, promuovendo una trasparenza che mira a accelerare l’innovazione all’interno della comunità globale dell’IA.
Il cuore operativo di questa tecnologia è rappresentato dalle funzioni denominate “Computer Use” e “Browser Use”. Grazie a queste capacità, integrate nella soluzione proprietaria OneAgent, l’intelligenza artificiale è in grado di visualizzare lo schermo, interpretare l’interfaccia utente e agire fisicamente attraverso clic e movimenti del mouse. Non si tratta di una semplice automazione pre-programmata, ma di un sistema che comprende il contesto: può navigare su un sito, compilare moduli, gestire strumenti di editing come VLC o organizzare documenti, adattandosi dinamicamente ai cambiamenti visivi che incontra. Per raggiungere questo livello di precisione, il modello è stato addestrato su oltre mille scenari accuratamente selezionati, focalizzati sulla comprensione profonda delle interfacce e sulla fluidità del movimento nel cyberspazio.
Un aspetto tecnico di grande rilievo riguarda l’efficienza infrastrutturale. Grazie all’utilizzo della piattaforma GenOS e delle funzioni multi-tenant, Hunmin VLM 235B è stato progettato per operare su singole risorse GPU senza richiedere espansioni hardware proibitive. Inoltre, gli ingegneri di Xenon sono riusciti a risolvere uno dei problemi storici dell’apprendimento automatico: la “dimenticanza catastrofica”. Spesso, quando un modello impara a svolgere compiti specifici, tende a perdere parte della sua intelligenza generale. Attraverso una sofisticata procedura di messa a punto, Hunmin mantiene invece intatte le sue capacità di ragionamento globale mentre eccelle nelle attività di manipolazione fine, registrando miglioramenti prestazionali che superano il 13% nell’uso di strumenti multimediali rispetto alle versioni precedenti.
L’orizzonte di Xenon, tuttavia, non si ferma al mondo digitale dei pixel e dei browser. La strategia a lungo termine dell’azienda prevede un’espansione verso la cosiddetta “IA fisica”. L’idea è quella di trasferire le capacità di riconoscimento e azione acquisite nell’ambiente software all’ambiente hardware, trasformando OneAgent nel cervello motorio per dispositivi di automazione e robot di servizio. Questo passaggio dall’IA “fruibile” (utilizzabile via software) all’IA “fisica” rappresenta la frontiera ultima della trasformazione industriale, dove macchine intelligenti potranno non solo pensare, ma anche agire autonomamente nel mondo reale per supportare la produzione e la logistica.
