Immagine AI

Nel campo in rapida evoluzione degli agenti di intelligenza artificiale capaci di interagire e manipolare i sistemi informatici, la startup OpenAGI è emersa come un concorrente inaspettato, superando in prestazioni i colossi del settore come OpenAI e Anthropic. Guidata dall’ex studente del MIT Zheng Yiqin, OpenAGI ha presentato di recente il suo modello di controllo informatico, chiamato Lux, il quale non solo vanta tassi di successo eccezionalmente elevati nei benchmark più realistici, ma promette di farlo a una frazione significativa del costo delle soluzioni concorrenti.

Il successo di Lux è stato misurato sull’ultimo e più severo criterio di valutazione degli agenti, l’Online-Mind2Web. Questo benchmark è progettato per replicare scenari di lavoro reali, incaricando l’agente di eseguire trecento attività su centotrentasei siti web reali, inclusa la gestione di modifiche inattese alla struttura delle pagine e di situazioni impreviste. In questo contesto esigente, Lux ha ottenuto un notevole tasso di successo dell’83,6%, superando in modo significativo le prestazioni registrate da Google Gemini CUA (69,0%), OpenAI (61,3%) e Anthropic (56,3%). Tale risultato posiziona Lux come l’agente più efficace finora testato in termini di manipolazione informatica pratica.

In un’intervista con VentureBeat, il CEO Chin ha delineato il fattore di differenziazione fondamentale del modello, definendolo un “modello che impara le azioni”. A differenza degli esistenti Large Language Models (LLM), che sono primariamente focalizzati sulla previsione del testo e sulla generazione linguistica, Lux è stato addestrato per apprendere direttamente da “sequenze di screenshot + azioni”. Questo approccio permette all’agente di interpretare la schermata di un computer in modo più visivo e contestuale, consentendogli di eseguire azioni reali e complesse come cliccare, digitare e navigare con una comprensione più profonda dell’interfaccia utente.

Per potenziare ulteriormente le sue capacità, OpenAGI ha adottato un innovativo metodo denominato “Agent Active Pre-training”. Questo meccanismo consente all’agente di generare nuovi dati attraverso l’autoesplorazione e l’apprendimento auto-rinforzante, riflettendo dinamicamente questa nuova conoscenza nel processo di apprendimento. Il rappresentante Chin lo ha descritto come una “struttura auto-rafforzante”, dove modelli più efficaci guidano una migliore esplorazione, la quale, a sua volta, produce una migliore conoscenza, che infine alimenta la crescita e il miglioramento del modello stesso.

Un altro elemento chiave che distingue Lux dalla concorrenza risiede nell’ampiezza del suo controllo. La maggior parte degli agenti commerciali oggi disponibili è tipicamente limitata all’ambiente del browser web, una restrizione che esclude gran parte del lavoro effettivo svolto dagli utenti in ambienti aziendali. OpenAGI, tuttavia, ha annunciato che Lux è in grado di interfacciarsi in modo nativo anche con applicazioni desktop, includendo strumenti essenziali come Excel, Slack, la suite Adobe e gli IDE di sviluppo software. A supporto di questa ampia funzionalità, l’azienda ha anche rilasciato un SDK per facilitare lo sviluppo di applicazioni basate sulle capacità di Lux.

Questa espansione delle funzionalità è resa ancora più significativa dal vantaggio economico: si stima che Lux operi a un costo pari a circa un decimo di quello richiesto dai prodotti di OpenAI o Anthropic. Per risolvere le preoccupazioni relative alla sicurezza e all’esecuzione, specialmente per i clienti enterprise che non vogliono trasmettere dati sensibili dello schermo a cloud esterni, OpenAGI sta attivamente collaborando con giganti hardware come Intel per ottimizzare l’esecuzione sui dispositivi e sta valutando partnership con AMD e Microsoft.

Conscia dei rischi intrinseci legati all’intelligenza artificiale con capacità di controllo informatico, OpenAGI ha adottato politiche di sicurezza interne rigorose. Ad esempio, nel caso in cui un utente richieda un’azione ad alto rischio come “Copia le mie informazioni bancarie e incollale in un documento”, Lux è programmato per riconoscere la richiesta come una violazione della sicurezza, rifiutando l’azione e visualizzando un messaggio di avviso. Naturalmente, resta da vedere se Lux riuscirà a mantenere la coerenza prestazionale dimostrata nei benchmark in ambienti operativi ampi e complessi, una sfida comune a tutti gli agenti IA. Tuttavia, la sua architettura incentrata sull’apprendimento delle azioni e il suo impressionante successo nei test più realistici lo rendono un player di primo piano nel cammino verso agenti informatici veramente autonomi.

Di Fantasy