Che cos’è e come funziona SwiftSage

Come dovremmo massimizzare la capacità di pianificazione degli LLM riducendo i costi di calcolo? Scopri SwiftSage: un nuovo agente generativo per complesse attività di ragionamento interattivo, ispirato alla teoria del doppio processo della cognizione umana

L’intelligenza artificiale si sta rapidamente diffondendo e per tutte le buone ragioni. Con l’introduzione di modelli di linguaggio di grandi dimensioni come GPT, BERT e LLaMA, quasi tutti i settori, inclusi sanità, finanza, e-commerce e media, utilizzano questi modelli per attività come Natural Language Understanding (NLU), Natural Language Generation (NLG), risposta alle domande, programmazione, recupero delle informazioni e così via. Il famosissimo ChatGPT, che è stato nei titoli dei giornali sin dalla sua uscita, è stato costruito con la tecnologia del trasformatore di GPT 3.5 e GPT 4.

Questi sistemi di intelligenza artificiale che imitano gli umani dipendono fortemente dallo sviluppo di agenti in grado di esibire capacità di risoluzione dei problemi simili agli umani. I tre approcci principali per lo sviluppo di agenti in grado di affrontare complessi compiti di ragionamento interattivo sono: Deep Reinforcement Learning (RL), che prevede l’addestramento di agenti attraverso un processo di tentativi ed errori, Behaviour Cloning (BC) attraverso Sequence-to-Sequence (seq2seq) Learning che prevede l’addestramento di agenti imitando il comportamento di agenti esperti e Prompting LLM in cui agenti generativi basati su prompting LLM producono piani e azioni ragionevoli per compiti complessi.

Gli approcci BC basati su RL e seq2seq presentano alcune limitazioni, come la scomposizione delle attività, l’incapacità di mantenere la memoria a lungo termine, la generalizzazione a attività sconosciute e la gestione delle eccezioni. A causa della ripetuta inferenza LLM in ogni fase temporale, anche gli approcci precedenti sono computazionalmente costosi.

Di recente, è stato proposto un framework chiamato SWIFTSAGE per affrontare queste sfide e consentire agli agenti di imitare il modo in cui gli umani risolvono compiti complessi e aperti. SWIFTSAGE mira a integrare i punti di forza della clonazione del comportamento e sollecitare gli LLM a migliorare le prestazioni di completamento delle attività in attività interattive complesse. Il quadro trae ispirazione dalla teoria del doppio processo, che suggerisce che la cognizione umana coinvolge due sistemi distinti: il sistema 1 e il sistema 2. Il sistema 1 implica il pensiero rapido, intuitivo e automatico, mentre il sistema 2 implica processi di pensiero metodici, analitici e deliberati.

Il framework SWIFTSAGE è costituito da due moduli: il modulo SWIFT e il modulo SAGE. Simile al Sistema 1, il modulo SWIFT rappresenta il pensiero rapido e intuitivo. È implementato come un modello di linguaggio codificatore-decodificatore compatto che è stato messo a punto sulle traiettorie di azione di un agente Oracle. Il modulo SWIFT codifica i componenti della memoria a breve termine come le azioni precedenti, le osservazioni, i luoghi visitati e lo stato dell’ambiente attuale, seguiti dalla decodifica della successiva azione individuale, mirando così a simulare il processo decisionale rapido e istintivo mostrato dagli esseri umani.

Il modulo SAGE, d’altra parte, imita processi di pensiero simili al Sistema 2 e utilizza LLM come GPT-4 per la pianificazione e la messa a terra degli obiettivi secondari. Nella fase di pianificazione, agli LLM viene richiesto di individuare gli elementi necessari, pianificare, tenere traccia degli obiettivi secondari e rilevare e correggere potenziali errori, mentre nella fase di messa a terra, gli LLM vengono impiegati per trasformare gli obiettivi secondari di output derivati dalla fase di pianificazione in una sequenza di azioni eseguibili .

I moduli SWIFT e SAGE sono stati integrati attraverso un algoritmo euristico che determina quando attivare o disattivare il modulo SAGE e come combinare gli output di entrambi i moduli utilizzando un meccanismo di action buffer. A differenza dei metodi precedenti che generano solo l’azione successiva immediata, SWIFTSAGE si impegna nella pianificazione dell’azione a lungo termine.

Per valutare le prestazioni di SWIFTSAGE, sono stati condotti esperimenti su 30 attività dal benchmark ScienceWorld. I risultati hanno dimostrato che SWIFTSAGE supera in modo significativo altri metodi esistenti, come SayCan, ReAct e Reflexion. Raggiunge punteggi più alti e dimostra un’efficacia superiore nella risoluzione di compiti complessi del mondo reale.

In conclusione, SWIFTSAGE è un framework promettente che combina i punti di forza della clonazione del comportamento e del prompt LLM. Può quindi essere davvero utile per migliorare la pianificazione delle azioni e migliorare le prestazioni in compiti di ragionamento complessi.

Che cos’è e come funziona SwiftSage

Diihal

Di ihal

Articoli correlati

SK Telecom presenta AX 3.1 Lite, modello AI “sovrano” sviluppato internamente

Upstage presenta Solar Pro 2, il nuovo modello linguistico di grandi dimensioni che avvicina la Corea ai migliori modelli globali

Zepto rivoluziona la correzione ortografica con l’ausilio degli LLM

You missed

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Grok arriva sulle Tesla: l’intelligenza artificiale di Elon Musk si integra nelle auto

Lavawave lancia SCAM GUARD, AI per contrastare i crimini digitali

Google Gemini introduce la funzione di generazione video da foto con Veo 3