Immagine AI

Immaginate un assistente digitale che, invece di limitarvisi a parlare o rispondere con parole, prende il controllo del vostro computer: clicca, digita, naviga tra finestre e menu proprio come farebbe una persona. Questo è il mondo dei Computer-Use Agents (CUA), e sul palco è apparso da poco un nuovo protagonista: OpenCUA, un framework open source che punta a far vedere che anche “l’altro lato” – quello trasparente, collaborativo, aperto – può essere potente quanto le soluzioni chiuse delle grandi aziende.

Finora, i più avanzati agenti capaci di usare un computer autonomamente erano appannaggio di pochi laboratori: OpenAI, Anthropic e simili custodivano gelosamente dati, tecniche e architetture, rendendo difficile capire i punti di forza, le fragilità o i rischi inerenti. Il gruppo della University of Hong Kong e suoi collaboratori hanno deciso di rompere questo muro, creando OpenCUA—un framework aperto, didattico, ma potentissimo.

Al centro del progetto c’è AgentNet Tool, un sistema che gira silenzioso sui PC degli annotatori: registra immagini dello schermo, movimenti del mouse, tasti premuti e struttura degli elementi grafici (accessibility tree). Il risultato? Migliaia di esempi reali, trasformati in sequenze “stato-azione”, pronte per insegnare ai modelli come agire.

Il dataset che ne è nato è impressionante: oltre 22.600 dimostrazioni su Windows, macOS e Ubuntu, coprendo più di 200 applicazioni e siti web. Ma la parte più premurosa riguarda la privacy: ogni contributo viene prima rivisto dal partecipante, poi scannerizzato automaticamente e infine verificato manualmente per catturare dati sensibili — un approccio che punta a garantire robustezza e sicurezza anche in ambienti aziendali.

Non basta insegnare cosa fare: bisogna anche spiegare perché. Ecco che entra in scena la chain-of-thought (CoT), un flusso esplicativo che accompagna ogni azione: un ragionamento in tre livelli — osservazione, riflessione, azione — che guida il modello verso una comprensione più profonda. I risultati lo confermano: agenti meglio equipaggiati, pronti a comportarsi con cognizione di causa.

OpenCUA ha messo alla prova modelli come Qwen e Kimi-VL, in versioni da 3 a 32 miliardi di parametri. Il risultato? A pari condizioni, l’agente OpenCUA-32B ha eguagliato o superato le performance di agenti chiusi come quelli di OpenAI, posizionandosi allo stato dell’arte nel benchmark OSWorld-Verified.

One more point: questa infrastruttura (dati, strumenti, pipeline, codice e agenti) è completamente open source. Questo significa che, in azienda o in ricerca, chiunque può addestrare agenti personalizzati sui propri strumenti interni — senza reinventare tutto da zero. È una base libera, robusta e personalizzabile, pensata per crescere con i bisogni reali

Di Fantasy