Nell’ottobre 2024, Anthropic ha introdotto una funzione rivoluzionaria per il suo modello di intelligenza artificiale, Claude: la modalità “Computer Use”. Questa innovazione consente a Claude di interagire con le interfacce dei computer in modo simile agli utenti umani, eseguendo compiti come muovere il cursore, digitare testo e navigare tra le applicazioni. Un recente studio condotto dallo Show Lab presso la National University of Singapore ha valutato le capacità e le limitazioni di questa funzione, fornendo preziose informazioni sulle sue prestazioni attuali e sulle potenziali applicazioni.
I ricercatori hanno analizzato la modalità “Computer Use” di Claude attraverso vari compiti, tra cui navigazione web, automazione dei flussi di lavoro, produttività d’ufficio e persino videogiochi. Ogni compito è stato esaminato in base a tre componenti chiave: pianificazione, azione e critica.
- Pianificazione: Claude ha dimostrato la capacità di elaborare piani coerenti per portare a termine i compiti assegnati, delineando i passaggi necessari per raggiungere obiettivi specifici.
- Azione: L’IA ha tradotto efficacemente i suoi piani in azioni, come aprire browser, cliccare su elementi e digitare testo, mostrando la capacità di eseguire compiti in modo autonomo.
- Critica: Claude ha mostrato abilità di auto-valutazione, monitorando i propri progressi e identificando errori durante l’esecuzione dei compiti. Questa consapevolezza gli ha permesso di adattare le sue azioni di conseguenza.
Lo studio ha evidenziato diversi punti di forza della modalità “Computer Use” di Claude:
- Esecuzione autonoma dei compiti: Claude ha eseguito con successo compiti complessi senza intervento umano, tra cui la navigazione su siti web, l’estrazione di informazioni e l’inserimento di dati in fogli di calcolo.
- Coordinamento multi-applicazione: L’IA è riuscita a coordinare azioni tra diverse applicazioni, come copiare dati da un sito web e incollarli in un documento, dimostrando versatilità nella gestione di ambienti software diversificati.
Tuttavia, lo studio ha anche identificato alcune limitazioni:
- Gestione degli errori: Sebbene Claude sia in grado di riconoscere e correggere alcuni errori, ha talvolta incontrato difficoltà in scenari imprevisti, portando a esecuzioni incomplete o errate dei compiti.
- Comprensione contestuale: In compiti complessi che richiedono una profonda comprensione del contesto, Claude ha occasionalmente interpretato erroneamente le istruzioni, risultando in prestazioni subottimali.
I risultati di questo studio suggeriscono che, sebbene la modalità “Computer Use” di Claude rappresenti un avanzamento significativo nell’interazione IA-umano, vi sia margine di miglioramento. Migliorare la gestione degli errori e la comprensione contestuale sarà cruciale per sviluppare agenti IA più affidabili ed efficienti, capaci di integrarsi senza soluzione di continuità in vari flussi di lavoro.