LangChain, un framework specializzato nell’orchestrazione di agenti AI, ha recentemente condotto una serie di esperimenti per valutare le capacità degli agenti AI nel gestire compiti complessi. I risultati hanno evidenziato che, sebbene promettenti, gli agenti AI attuali non raggiungono ancora il livello umano, principalmente a causa della loro difficoltà nel gestire un numero elevato di strumenti e istruzioni contemporaneamente.

Per le sue analisi, LangChain ha utilizzato il framework ReAct, noto per la sua semplicità e efficacia nell’implementazione di agenti AI. Gli esperimenti si sono concentrati su due compiti specifici: la risposta a domande e la pianificazione di riunioni. L’obiettivo era determinare il punto in cui un singolo agente ReAct inizia a mostrare segni di sovraccarico, con conseguente degrado delle prestazioni.

I risultati hanno rivelato che gli agenti AI, quando sottoposti a un numero elevato di compiti e strumenti, tendono a dimenticare di utilizzare strumenti essenziali o a non rispondere adeguatamente alle istruzioni. Ad esempio, gli agenti incaricati della pianificazione di riunioni hanno mostrato una diminuzione delle prestazioni quando il numero di domini (compiti) è aumentato, con alcuni modelli che hanno registrato un calo fino al 2% di accuratezza quando i domini sono saliti a sette.

Questi risultati suggeriscono che gli agenti AI attuali hanno limiti significativi nella gestione di compiti multipli e strumenti diversi. Per raggiungere livelli di prestazione comparabili a quelli umani, è necessario sviluppare architetture più robuste che possano gestire efficacemente la complessità e la varietà delle istruzioni e degli strumenti. LangChain sta esplorando approcci come gli “agenti ambientali”, che operano in background e vengono attivati da eventi specifici, per affrontare queste sfide.

Di Fantasy