Nel corso del 2023, l’emergere di agenti AI basati su modelli linguistici di grandi dimensioni (LLM) ha suscitato grande entusiasmo. Demo potenti come AutoGPT e BabyAGI hanno mostrato il potenziale di LLM che operano in loop, scegliendo l’azione successiva, osservando i risultati e decidendo il passo successivo, un processo noto come framework ReACT. Si prevedeva che questa nuova metodologia alimentasse agenti in grado di eseguire autonomamente e genericamente compiti complessi. Tuttavia, a fine 2024, il panorama è popolato da agenti AI e framework per la loro costruzione che non sempre soddisfano le aspettative iniziali.

Gli agenti alimentati dal framework ReACT mostrano limitazioni significative. Quando affrontano compiti che richiedono più di pochi passaggi o l’uso di numerosi strumenti, tendono a fallire. Oltre a evidenti problemi di latenza, possono perdere il filo del discorso, non seguire correttamente le istruzioni, fermarsi troppo presto o troppo tardi, e produrre risultati molto diversi ad ogni tentativo. Questo accade perché il framework ReACT amplifica le limitazioni degli LLM imprevedibili con l’aumento dei passaggi.

Gli sviluppatori di agenti che affrontano casi d’uso reali, specialmente in ambito aziendale, necessitano di risultati affidabili, prevedibili e spiegabili per flussi di lavoro complessi. Hanno bisogno di sistemi AI che mitighino, anziché esacerbare, la natura imprevedibile degli LLM.

Per affrontare queste sfide, gli sviluppatori hanno in gran parte abbandonato l’autonomia dinamica promessa da ReACT, adottando metodi che si basano pesantemente sulla “static chaining” – la creazione di catene predefinite progettate per risolvere casi d’uso specifici. Questo approccio, simile all’ingegneria del software tradizionale, offre un maggiore controllo e affidabilità ma manca di autonomia e flessibilità. Le soluzioni risultanti sono quindi intensive in termini di sviluppo, applicabili in modo ristretto e troppo rigide per affrontare alti livelli di variazione negli input e nell’ambiente.

Le pratiche di static chaining possono variare nel loro grado di “staticità”. Alcune catene utilizzano gli LLM solo per eseguire passaggi atomici (ad esempio, per estrarre informazioni, riassumere testi o redigere un messaggio), mentre altre li utilizzano anche per prendere alcune decisioni dinamiche in fase di esecuzione (ad esempio, un LLM che instrada tra flussi alternativi nella catena o un LLM che convalida l’esito di un passaggio per determinare se deve essere eseguito nuovamente). In ogni caso, finché gli LLM sono responsabili di qualsiasi decisione dinamica nella soluzione, ci troviamo inevitabilmente di fronte a un compromesso tra affidabilità e autonomia. Più una soluzione è statica, più è affidabile e prevedibile, ma anche meno autonoma e quindi più ristretta nell’applicazione e più intensiva in termini di sviluppo. Più una soluzione è dinamica e autonoma, più è generica e semplice da costruire ma anche meno affidabile e prevedibile.

Questo scenario solleva la domanda: perché non abbiamo ancora visto un framework agentico che possa essere posizionato nel quadrante superiore destro? Siamo destinati a scambiare per sempre affidabilità con autonomia? Non possiamo ottenere un framework che fornisca l’interfaccia semplice di un agente ReACT (prendi un obiettivo e un set di strumenti e risolvilo) senza sacrificare affidabilità?

La risposta è che possiamo e lo faremo! Ma per farlo, dobbiamo renderci conto che abbiamo sbagliato approccio. Tutti gli attuali framework per la costruzione di agenti condividono un difetto comune: si basano sugli LLM come componente dinamico e autonomo. Tuttavia, l’elemento cruciale che ci manca—ciò di cui abbiamo bisogno per creare agenti sia autonomi che affidabili—è la tecnologia di pianificazione. E gli LLM non sono grandi pianificatori.

Per “pianificazione” intendiamo la capacità di modellare esplicitamente corsi alternativi di azione che portano a un risultato desiderato e di esplorare ed esploitare efficientemente queste alternative sotto vincoli di budget. La pianificazione dovrebbe avvenire sia a livello macro che micro. Un piano macro suddivide un compito in passaggi dipendenti e indipendenti che devono essere eseguiti per raggiungere l’obiettivo desiderato. Ciò che spesso viene trascurato è la necessità di una micro-pianificazione mirata a garantire risultati desiderati a livello di passaggio.

Gli LLM possono tradurre istruzioni ad alto livello in catene di pensiero o piani definiti in linguaggio naturale o codice. Tuttavia, la pianificazione richiede più di questo. Richiede la capacità di modellare alternative che possano ragionevolmente portare all’esito desiderato e di ragionare sull’utilità attesa e sui costi attesi (in termini di calcolo e/o latenza) di ciascuna alternativa. Gli LLM non sono in grado di prevedere l’utilità e i costi corrispondenti di queste alternative, poiché tali tratti probabilistici raramente si trovano nel mondo reale e non sono inclusi nei dati di addestramento degli LLM.

Per affrontare le sfide attuali nella creazione di agenti AI affidabili e autonomi, è necessario integrare la tecnologia di pianificazione avanzata. Questa tecnologia consente di modellare esplicitamente corsi alternativi di azione che portano a un risultato desiderato, esplorando ed esplorando efficientemente queste alternative sotto vincoli di budget. La pianificazione dovrebbe avvenire sia a livello macro che micro. Un piano macro suddivide un compito in passaggi dipendenti e indipendenti che devono essere eseguiti per raggiungere l’obiettivo desiderato. Ciò che spesso viene trascurato è la necessità di una micro-pianificazione mirata a garantire risultati desiderati a livello di passaggio.

Gli LLM, pur essendo potenti nel generare testi coerenti, non sono adatti alla pianificazione avanzata. La pianificazione richiede la capacità di modellare alternative che possano ragionevolmente portare all’esito desiderato e di ragionare sull’utilità attesa e sui costi attesi (in termini di calcolo e/o latenza) di ciascuna alternativa. Gli LLM non sono in grado di prevedere l’utilità e i costi corrispondenti di queste alternative, poiché tali tratti probabilistici raramente si trovano nel mondo reale e non sono inclusi nei dati di addestramento degli LLM.

Per colmare questa lacuna, è necessario sviluppare modelli di pianificazione che possano apprendere dall’esperienza e dalla simulazione, modellando esplicitamente corsi alternativi di azione e le relative probabilità di utilità e costo per un particolare compito in un determinato ambiente di strumenti e dati. Inoltre, è fondamentale disporre di un linguaggio di definizione dei piani (Plan Definition Language, PDL) che possa essere utilizzato per rappresentare e ragionare su tali corsi di azione e probabilità.

Di Fantasy