Come dovremmo massimizzare la capacità di pianificazione degli LLM riducendo i costi di calcolo? Scopri SwiftSage: un nuovo agente generativo per complesse attività di ragionamento interattivo, ispirato alla teoria del doppio processo della cognizione umana
L’intelligenza artificiale si sta rapidamente diffondendo e per tutte le buone ragioni. Con l’introduzione di modelli di linguaggio di grandi dimensioni come GPT, BERT e LLaMA, quasi tutti i settori, inclusi sanità, finanza, e-commerce e media, utilizzano questi modelli per attività come Natural Language Understanding (NLU), Natural Language Generation (NLG), risposta alle domande, programmazione, recupero delle informazioni e così via. Il famosissimo ChatGPT, che è stato nei titoli dei giornali sin dalla sua uscita, è stato costruito con la tecnologia del trasformatore di GPT 3.5 e GPT 4.
Questi sistemi di intelligenza artificiale che imitano gli umani dipendono fortemente dallo sviluppo di agenti in grado di esibire capacità di risoluzione dei problemi simili agli umani. I tre approcci principali per lo sviluppo di agenti in grado di affrontare complessi compiti di ragionamento interattivo sono: Deep Reinforcement Learning (RL), che prevede l’addestramento di agenti attraverso un processo di tentativi ed errori, Behaviour Cloning (BC) attraverso Sequence-to-Sequence (seq2seq) Learning che prevede l’addestramento di agenti imitando il comportamento di agenti esperti e Prompting LLM in cui agenti generativi basati su prompting LLM producono piani e azioni ragionevoli per compiti complessi.
Gli approcci BC basati su RL e seq2seq presentano alcune limitazioni, come la scomposizione delle attività, l’incapacità di mantenere la memoria a lungo termine, la generalizzazione a attività sconosciute e la gestione delle eccezioni. A causa della ripetuta inferenza LLM in ogni fase temporale, anche gli approcci precedenti sono computazionalmente costosi.
Di recente, è stato proposto un framework chiamato SWIFTSAGE per affrontare queste sfide e consentire agli agenti di imitare il modo in cui gli umani risolvono compiti complessi e aperti. SWIFTSAGE mira a integrare i punti di forza della clonazione del comportamento e sollecitare gli LLM a migliorare le prestazioni di completamento delle attività in attività interattive complesse. Il quadro trae ispirazione dalla teoria del doppio processo, che suggerisce che la cognizione umana coinvolge due sistemi distinti: il sistema 1 e il sistema 2. Il sistema 1 implica il pensiero rapido, intuitivo e automatico, mentre il sistema 2 implica processi di pensiero metodici, analitici e deliberati.
Il framework SWIFTSAGE è costituito da due moduli: il modulo SWIFT e il modulo SAGE. Simile al Sistema 1, il modulo SWIFT rappresenta il pensiero rapido e intuitivo. È implementato come un modello di linguaggio codificatore-decodificatore compatto che è stato messo a punto sulle traiettorie di azione di un agente Oracle. Il modulo SWIFT codifica i componenti della memoria a breve termine come le azioni precedenti, le osservazioni, i luoghi visitati e lo stato dell’ambiente attuale, seguiti dalla decodifica della successiva azione individuale, mirando così a simulare il processo decisionale rapido e istintivo mostrato dagli esseri umani.
Il modulo SAGE, d’altra parte, imita processi di pensiero simili al Sistema 2 e utilizza LLM come GPT-4 per la pianificazione e la messa a terra degli obiettivi secondari. Nella fase di pianificazione, agli LLM viene richiesto di individuare gli elementi necessari, pianificare, tenere traccia degli obiettivi secondari e rilevare e correggere potenziali errori, mentre nella fase di messa a terra, gli LLM vengono impiegati per trasformare gli obiettivi secondari di output derivati dalla fase di pianificazione in una sequenza di azioni eseguibili .
I moduli SWIFT e SAGE sono stati integrati attraverso un algoritmo euristico che determina quando attivare o disattivare il modulo SAGE e come combinare gli output di entrambi i moduli utilizzando un meccanismo di action buffer. A differenza dei metodi precedenti che generano solo l’azione successiva immediata, SWIFTSAGE si impegna nella pianificazione dell’azione a lungo termine.
Per valutare le prestazioni di SWIFTSAGE, sono stati condotti esperimenti su 30 attività dal benchmark ScienceWorld. I risultati hanno dimostrato che SWIFTSAGE supera in modo significativo altri metodi esistenti, come SayCan, ReAct e Reflexion. Raggiunge punteggi più alti e dimostra un’efficacia superiore nella risoluzione di compiti complessi del mondo reale.
In conclusione, SWIFTSAGE è un framework promettente che combina i punti di forza della clonazione del comportamento e del prompt LLM. Può quindi essere davvero utile per migliorare la pianificazione delle azioni e migliorare le prestazioni in compiti di ragionamento complessi.