L’attenzione su GitHub è rivolta in questi giorni a MetaGPT, un framework multi-agente che sta raccogliendo un considerevole seguito con 20.000 stelle. Questo framework innovativo ha l’obiettivo di collegare diversi programmi, consentendo loro di collaborare in modo più efficiente senza cadere in errori concettuali. I vari programmi operano su diverse porzioni di un problema, agendo come esperti in specifici settori. Questo approccio facilita il controllo incrociato e riduce gli errori complessivi.
Fino ad ora, agenti come Baby AGI e Agent GPT si erano impegnati a creare gruppi di agenti per completare attività complesse, come “creare un codice per questa API”. Tuttavia, MetaGPT ha sollevato l’asticella, accettando un requisito di una singola riga come input e generando storie utente, analisi di mercato, requisiti, strutture dati, API e documenti completi. Ma la domanda è: è davvero MetaGPT migliore?
Gli sviluppatori di MetaGPT hanno assunto i ruoli di vari attori in un’azienda di software, inclusi product manager, project manager, architetti del software e ingegneri. Hanno quindi utilizzato GPT-4 per creare agenti per ogni “persona” all’interno di questa fittizia azienda e li hanno fatti operare in parallelo. MetaGPT è stato testato su attività legate alla creazione di programmi informatici e ha dimostrato capacità superiori rispetto alle soluzioni esistenti.
MetaGPT non si limita a scrivere codice: effettua anche analisi che normalmente richiederebbero l’impiego di una software house. L’ampia gamma di agenti include non solo sviluppatori, ma anche ingegneri, tester QA, project manager e architetti. Inoltre, implementa una struttura di supervisione simile a quella di un manager per guidare questi agenti.
Dopo l’installazione di MetaGPT, gli utenti possono creare praticamente qualsiasi cosa, persino una versione di Flappy Bird senza scrivere alcun codice. Gli agenti collaborano, con il product manager che definisce obiettivi, storie utente e analisi concorrenziali. L’architetto suddivide le attività, seguito dagli sviluppatori che si concentrano sul codice.
MetaGPT crea una cartella chiamata “area di lavoro” contenente i file generati. Produce anche grafici e diagrammi, solitamente compiti che richiederebbero giorni. Anche se potrebbero esserci alcune correzioni da apportare e alcuni bug da risolvere, poiché le informazioni di GPT sono aggiornate solo fino al 2021, MetaGPT si rivela uno strumento potente per generare rapidamente codice e documentazione.
Per raggiungere questo, viene utilizzata una serie di istruzioni denominate SOP (Procedure Operative Standard). Le SOP sono come piani che guidano il lavoro efficiente degli agenti. Ogni agente riceve una descrizione del suo ruolo, in modo che il sistema sappia a cosa è più adatto. Questo assicura che il sistema si avvii con le istruzioni corrette. Gli agenti possono comunicare tra loro e condividere strumenti e informazioni in uno spazio condiviso, simile a un team di lavoro umano. Possono condividere il loro lavoro, agendo attivamente nella ricerca di informazioni utili. Lo spazio condiviso è analogo a un ambiente di lavoro digitale dove le persone collaborano.
Quando si tratta di progetti collaborativi, sia MetaGPT che AgentVerse consentono ai partecipanti di unirsi alle attività. Entrambi assegnano ruoli alle persone, favorendo una collaborazione efficiente. Tuttavia, MetaGPT va oltre, non solo suddividendo le attività ma anche gestendole.
Dal punto di vista della generazione di codice, tutti questi strumenti sono validi, ma secondo il documento, MetaGPT si dimostra il più completo in quanto copre una gamma più ampia di attività di sviluppo e fornisce un set completo di strumenti per la gestione e l’esecuzione dei progetti.
Anche se MetaGPT può generare codice funzionante per giochi, non è perfetto poiché presenta regole rigide e opzioni limitate per l’aggiustamento manuale. D’altro canto, strumenti come AutoGPT, LangChain e AgentVerse funzionano meglio per attività più complesse rispetto a MetaGPT.
Secondo il documento, nei test di generazione di codice, MetaGPT si comporta eccezionalmente bene, ottenendo un punteggio massimo dell’81,7% e un 82,3% nel completare con successo le attività al primo tentativo. A confronto con altre modalità di generazione di codice come AutoGPT, LangChain e AgentVerse, MetaGPT dimostra una notevole capacità di gestire software molto più complessi e si distingue per la sua vasta gamma di funzionalità. Va sottolineato che, nei nostri esperimenti, MetaGPT ha completato con successo tutte le attività assegnate, dimostrando la sua potenza ed efficienza.
Questi diversi sistemi e framework di intelligenza artificiale sembrano catalizzare l’interesse su GitHub, ma al momento sembrano essere più delle dimostrazioni di concetto piuttosto che soluzioni pratiche. Come AutoGPT, potrebbero incontrare difficoltà con compiti anche leggermente complessi. C’è la possibilità che questa rappresenti la direzione futura, un semplice amalgama dei giusti modelli per creare agenti di intelligenza artificiale altamente utili. Finora, questi agenti sembrano attrarre l’attenzione, come codice a basso o nessun codice, con forse un miglioramento del 5-10%, ma il debito tecnico è lo stesso o addirittura maggiore.