La startup britannica Convergence ha annunciato il rilascio di ‘Proxy Lite’, una versione open source e più leggera del suo agente GUI ‘Proxy’. Questo sviluppo rappresenta un passo significativo nel campo degli agenti di interfaccia grafica, offrendo una soluzione efficiente e accessibile per l’automazione delle interazioni web.
‘Proxy Lite’ è progettato per interagire con interfacce grafiche utente (GUI) attraverso la lettura dello stato dettagliato delle pagine web, la pianificazione delle azioni e l’utilizzo di strumenti per simulare input da mouse e tastiera. Questa capacità consente all’agente di navigare e operare su siti web in modo autonomo, eseguendo compiti complessi senza intervento umano.
Il modello originale ‘Proxy’ ha ottenuto un notevole successo, registrando un tasso di successo dell’88% nel benchmark ‘WebVoyager’ per l’automazione web, superando di un punto percentuale l’agente ‘Operator’ di OpenAI. Nonostante ‘Proxy Lite’ utilizzi un modello più piccolo con 3 miliardi di parametri, ha raggiunto un rispettabile tasso di successo medio del 72% in vari test. In particolare, ha mostrato un’accuratezza dell’87,8% su ‘Allrecipes’, del 70% su ‘Amazon’ e oltre l’80% su siti come ‘Apple’ e ‘GitHub’.
‘Proxy Lite’ integra il modello open source ‘Qwen2.5-VL-3B-Instruct’ di Alibaba, un modello visivo-linguistico (VLM) avanzato, con un sistema di interazione per il controllo del browser. Questa combinazione permette all’agente di comprendere il contesto visivo delle pagine web e di eseguire azioni appropriate, rendendolo uno strumento potente per l’automazione delle attività online.
Fondata nel luglio 2024 da Marvin Furtow-Lab e Andy Tuluus, ex scienziati di machine learning presso Cohere, Convergence si distingue per il suo approccio innovativo nel campo dell’intelligenza artificiale. L’azienda mira a sviluppare Large Meta-Learning Models (LMLMs), sistemi in grado di apprendere nuove competenze in tempo reale durante l’uso, integrando la memoria nell’architettura del modello. Questa caratteristica consente ai modelli di migliorare continuamente, acquisendo nuove informazioni e abilità basate sul feedback degli utenti.
‘Proxy’ è attualmente disponibile in diverse versioni: una gratuita con cinque sessioni giornaliere, una a pagamento al costo di 20 dollari al mese e una versione enterprise per le aziende. Con il rilascio di ‘Proxy Lite’ come progetto open source su GitHub, Convergence offre alla comunità di sviluppatori e ricercatori l’opportunità di esplorare e contribuire all’evoluzione degli agenti GUI, promuovendo l’innovazione e l’adozione di queste tecnologie in vari settori.