L’azienda emergente Genspark, con sede a Palo Alto, ha recentemente presentato il suo innovativo “Super Agent”, un sistema autonomo progettato per gestire compiti reali in una vasta gamma di settori. Questo lancio segna un significativo passo avanti nella competizione per sviluppare agenti IA generali affidabili e versatili. ​

Secondo Eric Jing, co-fondatore di Genspark, Super Agent si basa su tre pilastri fondamentali:​

  • Integrazione di Modelli Linguistici Avanzati: L’agente utilizza nove diversi modelli di linguaggio di grandi dimensioni (LLM), permettendo una comprensione e generazione del linguaggio naturale altamente sofisticata.​
  • Ampia Gamma di Strumenti: Dispone di oltre 80 strumenti integrati, consentendo l’esecuzione di compiti complessi che richiedono l’orchestrazione di diverse funzionalità.​
  • Dataset Proprietari: Accede a più di 10 dataset esclusivi, fornendo informazioni accurate e contestualizzate per una varietà di applicazioni.​

Questa combinazione permette a Super Agent di superare le tradizionali chatbot, gestendo flussi di lavoro complessi e fornendo risultati completamente eseguiti. ​

In una dimostrazione impressionante, Super Agent ha pianificato un viaggio di cinque giorni a San Diego, calcolando le distanze a piedi tra le attrazioni, mappando le opzioni di trasporto pubblico e utilizzando un agente vocale per prenotare ristoranti, tenendo conto di allergie alimentari e preferenze di posti a sedere. Un’altra dimostrazione ha mostrato l’agente creare un video di cucina, generando passaggi della ricetta, scene video e sovrapposizioni audio. In un terzo esempio, ha scritto e prodotto un episodio animato in stile South Park, affrontando uno scandalo politico recente. ​ Questi esempi evidenziano la capacità di Super Agent di automatizzare compiti multi-step, combinando generazione creativa ed esecuzione pratica.​

Una caratteristica notevole di Super Agent è la sua capacità di visualizzare chiaramente il processo di pensiero, tracciando il ragionamento attraverso ogni fase, gli strumenti utilizzati e le motivazioni dietro ogni decisione. Osservare questa logica in tempo reale rende il sistema meno opaco e più simile a un partner collaborativo. Questo approccio potrebbe ispirare gli sviluppatori aziendali a incorporare percorsi di ragionamento tracciabili nei propri sistemi IA, aumentando la trasparenza e la fiducia nelle applicazioni. ​

Super Agent si distingue anche per la sua facilità di utilizzo. L’interfaccia si avvia senza problemi in un browser, senza necessità di configurazioni tecniche complesse. Genspark consente agli utenti di iniziare i test senza richiedere credenziali personali, riducendo le barriere all’adozione e sperimentazione. Questo contrasta con altri agenti, come Manus, che richiedono l’iscrizione a una lista d’attesa e la divulgazione di informazioni personali, aggiungendo frizioni all’esperienza dell’utente. ​

L’approccio di Genspark affronta una sfida ingegneristica di lunga data nell’IA: l’orchestrazione di strumenti su larga scala. Molti agenti attuali incontrano difficoltà nel gestire più di una manciata di API o strumenti esterni. Super Agent sembra gestire questa complessità in modo più efficace, probabilmente utilizzando il routing dei modelli e la selezione basata sul recupero per scegliere strumenti e sottomodelli in modo dinamico in base al compito. ​

Questa strategia richiama la ricerca emergente intorno a CoTools, un nuovo framework che migliora il modo in cui gli LLM utilizzano set di strumenti estesi ed in evoluzione. A differenza di approcci più datati che si basano pesantemente sull’ingegneria dei prompt o su un fine-tuning rigido, CoTools mantiene il modello base “congelato” mentre allena componenti più piccole per giudicare, recuperare e chiamare strumenti in modo efficiente. ​

Genspark non è la prima startup a promuovere agenti generali. Manus, lanciata il mese scorso da un’azienda con sede in Cina, ha attirato l’attenzione con il suo sistema multi-agente, capace di eseguire strumenti come browser web, editor di codice o fogli di calcolo per completare compiti multi-step. Tuttavia, Genspark afferma di aver superato Manus, ottenendo un punteggio dell’87,8% sul benchmark GAIA, rispetto all’86% riportato da Manus, e lo ha fatto con un’architettura che include componenti proprietarie e una copertura di strumenti più estesa. ​

Nel frattempo, le principali aziende di IA con sede negli Stati Uniti sono state più caute. Microsoft, ad esempio, si concentra su agenti verticali finemente sintonizzati che si allineano strettamente con applicazioni aziendali come Excel e Outlook.

Di Fantasy