Salesforce ha recentemente introdotto CoAct-1, un sistema innovativo che combina l’interazione con le interfacce grafiche utente (GUI) con la capacità di scrivere e eseguire codice in tempo reale. Questa fusione di approcci permette agli agenti AI di affrontare compiti complessi con maggiore efficienza e precisione, superando le limitazioni degli agenti tradizionali basati esclusivamente su GUI.

Gli agenti AI tradizionali, che operano attraverso interfacce grafiche, spesso incontrano difficoltà nell’affrontare flussi di lavoro lunghi e complessi. Compiti come la gestione di fogli di calcolo o l’elaborazione di dati richiedono sequenze di clic e navigazioni che possono essere fragili e soggette a errori. Un singolo clic errato o un elemento dell’interfaccia non riconosciuto correttamente può compromettere l’intero processo.

CoAct-1 rappresenta un passo avanti significativo, integrando tre agenti specializzati: l’Orchestratore, il Programmatore e l’Operatore GUI. L’Orchestratore funge da pianificatore centrale, suddividendo i compiti in sottotask e delegandoli agli agenti più adatti. Il Programmatore è responsabile della scrittura e dell’esecuzione di script in Python o Bash per compiti che richiedono un controllo preciso e diretto. L’Operatore GUI, invece, gestisce le interazioni visive con l’interfaccia, eseguendo clic e navigazioni quando necessario.

Questa struttura consente a CoAct-1 di bypassare sequenze di clic inefficienti, utilizzando il codice per compiti che possono essere eseguiti in modo più robusto e affidabile. Ad esempio, invece di navigare attraverso numerosi menu per trovare e modificare un file, l’agente può scrivere un breve script che esegue l’operazione in modo diretto.

I test condotti su benchmark reali, come OSWorld, hanno mostrato che CoAct-1 supera gli agenti tradizionali in termini di successo e efficienza. Con una percentuale di successo del 60,76%, CoAct-1 ha ridotto il numero medio di passaggi necessari per completare un compito a 10,15, rispetto ai 15,22 degli agenti basati solo su GUI. Questo miglioramento non solo accelera i processi, ma riduce anche le opportunità di errore.

Le potenzialità di CoAct-1 vanno oltre la semplice automazione di compiti ripetitivi. In ambienti aziendali complessi, dove le applicazioni non sempre offrono accesso completo tramite API, CoAct-1 può integrare diverse fonti di dati e strumenti, utilizzando codice, interfacce grafiche o API disponibili. Ad esempio, nel supporto clienti, un agente può raccogliere informazioni da sistemi diversi, analizzarle e fornire risposte pertinenti, indipendentemente dal fatto che l’accesso sia tramite codice o interfaccia grafica.

Nonostante i progressi, l’introduzione di agenti AI capaci di scrivere ed eseguire codice solleva interrogativi sulla sicurezza e sull’affidabilità. È fondamentale implementare misure di controllo rigorose, come sandboxing e accessi limitati, per prevenire l’esecuzione di codice dannoso o non autorizzato. Inoltre, in scenari complessi o ambigui, è consigliabile mantenere un supervisore umano per garantire che le decisioni prese dall’agente siano appropriate e sicure.

Di Fantasy