Immagine AI

L’evoluzione dell’Intelligenza Artificiale sta rapidamente passando dai modelli passivi, che si limitano a consumare enormi quantità di dati pre-esistenti, a sistemi attivi e autonomi, capaci di agire e apprendere nel mondo reale. Alibaba si è posizionata all’avanguardia di questa transizione con il rilascio di AgentEvolver, un framework rivoluzionario che conferisce agli agenti di IA la capacità di generare autonomamente i propri dati di apprendimento e di sviluppare le proprie competenze in modo evolutivo. Questa tecnologia promette di abbattere il costo e il tempo finora spesi per lo sviluppo di agenti IA su misura per le esigenze aziendali, risolvendo uno dei maggiori ostacoli alla diffusione dell’automazione cognitiva.

Fino a questo momento, lo sviluppo di agenti di intelligenza artificiale per ambienti di lavoro specifici ha rappresentato un onere finanziario e di risorse umane insostenibile per molte aziende. La sfida principale risiedeva nella necessità di creare dati di addestramento su misura, specialmente quando si trattava di software proprietari o sistemi interni per i quali non esisteva alcuna base di dati pubblici. Questa creazione di dati doveva essere spesso gestita manualmente da personale specializzato.

Inoltre, i metodi di addestramento basati sull’Apprendimento per Rinforzo (RL), pur essendo potenti, richiedono un’ampia fase di esplorazione per tentativi ed errori. Questo si traduceva in costi computazionali enormi e in tempi di sviluppo prolungati, creando una barriera d’ingresso significativa per le aziende che necessitavano di agenti personalizzati per flussi di lavoro specifici. AgentEvolver affronta direttamente questo problema introducendo un innovativo “ciclo di autoapprendimento” che sfrutta le avanzate capacità di inferenza dei Modelli Linguistici di Grandi Dimensioni (LLM).

AgentEvolver è costruito su tre meccanismi di autoevoluzione interconnessi che permettono all’agente di esplorare, apprendere e valutare se stesso in modo continuo e mirato: auto-interrogazione, auto-navigazione e auto-attribuzione.

Il meccanismo di auto-interrogazione è forse il più trasformativo. Consente all’agente di esplorare attivamente il proprio ambiente operativo e di determinare quali azioni e compiti siano possibili. Sulla base di questa esplorazione, l’agente è in grado di generare in modo autonomo i propri compiti di apprendimento. I ricercatori di Alibaba hanno spiegato che questo meccanismo trasforma l’LLM da un consumatore di dati a un produttore di dati, eliminando drasticamente la necessità di investimenti onerosi nella raccolta e nell’etichettatura manuale dei dati di training.

L’auto-navigazione, invece, mira a rendere il processo di esplorazione più efficiente e meno dispendioso. Questo meccanismo migliora l’efficienza complessiva del sistema riutilizzando le esperienze passate, sia i successi che i fallimenti. Ad esempio, se un tentativo precedente di interagire con un’API specifica ha generato un errore, l’agente accumula l’informazione e, in futuro, darà la priorità alla verifica dell’esistenza dell’API prima di tentare un’azione, riducendo le esplorazioni inutili e accelerando l’apprendimento.

Infine, l’auto-attribuzione risolve il problema della “ricompensa scarsa” (sparse reward), un limite comune nell’Apprendimento per Rinforzo dove la valutazione è basata unicamente sul successo finale. Invece di limitarsi a un giudizio binario (successo o fallimento), l’LLM fornisce un feedback dettagliato su come le azioni eseguite in ogni singola fase abbiano contribuito al risultato complessivo. Questo livello di trasparenza è particolarmente prezioso e necessario in settori regolamentati, dove la stabilità, l’affidabilità e la comprensibilità del processo sono fondamentali quanto il risultato finale.

I risultati dei test hanno confermato il potenziale rivoluzionario di AgentEvolver. Applicato al modello ‘QONE 2.5’ di Alibaba e valutato su benchmark complessi come ‘AppWorld’ e ‘BFCL v3’, il framework ha mostrato un miglioramento significativo delle prestazioni, con incrementi medi del 29,4% per il modello 7B e del 27,8% per il modello 14B. È stato riscontrato che il modulo di auto-interrogazione, affrontando direttamente la carenza di dati, è stato il principale motore di questo miglioramento. Ciò significa che AgentEvolver è in grado di generare dati di addestramento di alta qualità anche partendo da una quantità iniziale esigua di informazioni.

I ricercatori hanno evidenziato che AgentEvolver automatizza gran parte del processo di sviluppo di agenti su misura. Le aziende dovranno semplicemente fornire gli obiettivi di alto livello, lasciando che l’agente generi le proprie esperienze e capacità di apprendimento. Questo approccio ridurrà drasticamente l’onere di sviluppo, aprendo le porte all’automazione personalizzata in ambienti di lavoro precedentemente inaccessibili all’IA. Con il codice di AgentEvolver reso disponibile pubblicamente tramite GitHub, la tecnologia è pronta per accelerare una nuova era di agenti autonomi, più economici, veloci da implementare e più intelligenti.

Di Fantasy