L’entusiasmante sviluppo dell’ondata di agenti AI è iniziata con AutoGPT e AgentGPT e sta diventando uno degli aspetti più interessanti dell’innovazione AI moderna. Questi agenti, noti anche come agenti autonomi, utilizzano i modelli di linguaggio di apprendimento profondo (LLM) per svolgere autonomamente diverse attività, e molti li considerano i precursori dell’AGI (Intelligenza Artificiale Generale).
Con l’introduzione della chiamata di funzione nelle API di OpenAI, l’implementazione di modelli con comportamento agente è diventata più semplice che mai. L’incorporazione della potenza di GPT-4 con programmi di automazione personalizzati ha dato vita a una nuova generazione di agenti AI, alcuni dei quali potrebbero cambiare il nostro modo di interagire con il web.
Grazie agli sviluppi recenti nell’ecosistema degli agenti AI, come l’aggiornamento delle chiamate di funzione e i miglioramenti apportati a LangChain, questi agenti stanno diventando sempre più potenti. I nuovi agenti sono in grado di andare oltre la creazione di semplici strategie, e possono generare intere basi di codice e scrivere romanzi multi-capitolo in pochi minuti. Con il miglioramento delle infrastrutture e degli strumenti complementari, stiamo assistendo all’emergere di una nuova generazione di agenti AI estremamente potenti.
Gli agenti di intelligenza artificiale utilizzano le capacità di elaborazione del linguaggio naturale dei modelli di linguaggio di apprendimento profondo per svolgere autonomamente specifici compiti. Vedendo il potenziale di questi agenti, leader di mercato come OpenAI e Hugging Face hanno iniziato a costruire progressivamente l’ecosistema attorno a essi. Ad esempio, LangChain, che inizialmente ha consentito una forma di comportamento agente collegando i modelli di linguaggio di apprendimento profondo con dati esterni, ha ora arricchito le sue funzionalità con la chiamata di funzione.
Con questo aggiornamento, LangChain non solo ha aggiunto il supporto per la chiamata di funzione di OpenAI, ma ha anche reso possibile la conversione degli strumenti di LangChain in funzioni. Ciò consente una vasta gamma di casi d’uso e apre la possibilità di combinare i modelli di linguaggio di apprendimento profondo con un numero ancora maggiore di programmi.
Uno dei nuovi agenti di intelligenza artificiale più straordinari è GPT Engineer, una collezione di sistemi di intelligenza artificiale in grado di creare un sistema completo da zero. Secondo la pagina GitHub associata, GPT Engineer è in grado di generare un’intera base di codice basandosi su un prompt e alcuni chiarimenti, e tiene anche conto dei feedback forniti dagli esseri umani nel tempo. Al momento della scrittura, il repository di GPT Engineer ha ottenuto circa 24,4 mila stelle.
Allo stesso modo, il programmatore Matt Shumer ha creato un agente chiamato GPT-Author. Questa collezione di modelli di intelligenza artificiale è in grado di scrivere un intero libro in pochi minuti, generando persino una copertina adatta e pubblicandola su Kindle. Nonostante ciò abbia sollevato alcune preoccupazioni, il prodotto è stato reso open source, consentendo di collegarlo a un numero ancora maggiore di sistemi, se necessario. Shumer ha dichiarato che “GPT-Author è un agente vincolato, il che significa che il suo comportamento è altamente controllato, garantendo risultati migliori rispetto agli agenti non vincolati”.
Questa potrebbe essere la chiave per creare agenti di intelligenza artificiale che raggiungano effettivamente un obiettivo in modo più rapido ed efficiente rispetto a un essere umano. Gli agenti di intelligenza artificiale sono spesso criticati per essere intrinsecamente iterativi, il che significa che non possono creare qualcosa di nuovo in modo creativo come possono fare gli esseri umani. Tuttavia, gli agenti di intelligenza artificiale vincolati sembrano essere in grado di raggiungere livelli simili a quelli umani riducendo gli errori e rimanendo focalizzati sul tema.
Mustafa Suleyman, il co-fondatore di DeepMind, ha dichiarato in interviste che le IA con una mentalità vincolata sono più adatte a casi d’uso limitati. Parlando del nuovo prodotto di intelligenza artificiale della sua azienda, Pi, ha affermato: “Poiché non ci occupiamo di generare codice… poesie, lettere legali e spartiti musicali, possiamo concentrare gran parte del modello linguistico sulla conoscenza generale, la banalità e uno stile colloquiale”.
Questa tendenza degli agenti AI è iniziata con AutoGPT, lanciato a marzo di quest’anno. Il repository GitHub ha rapidamente raccolto oltre 100.000 stelle e ha ricevuto recensioni entusiastiche da parte di artisti del calibro di Andrej Karpathy.
Accolto come la “prossima frontiera dell’ingegneria rapida”, gli agenti di intelligenza artificiale hanno guadagnato popolarità. Gli sviluppatori hanno utilizzato AutoGPT per automatizzare lo scraping dei dati, per scrivere e debuggare automaticamente il codice e persino per trovare modi per guadagnare qualche soldo extra su Internet. Il successo di AutoGPT ha portato al lancio di una serie di altri agenti AI, come AgentGPT, Do Anything Machine e molti altri.
Un’occhiata al feed Twitter di LangChain mostra quante nuove funzionalità sono state aggiunte con questo aggiornamento. Gli sviluppatori hanno creato bot in grado di estrarre informazioni dai repository GitHub per rispondere alle domande, un servizio per creare siti web da zero e persino un database intelligente per gli agricoltori.
In combinazione con l’API OpenAI aggiornata ed economica, gli agenti AI hanno creato un’enorme eccitazione nella comunità degli sviluppatori. Sembrerebbe che gli sviluppatori siano sempre più desiderosi di sperimentare con i modelli di linguaggio di apprendimento profondo, e ciò ha portato al rilascio di agenti AI sempre più interessanti. Questo potrebbe essere il percorso verso agenti di intelligenza artificiale che possiamo effettivamente utilizzare. Come previsto da Tim Berners-Lee, che ha affermato che in futuro ognuno avrà il proprio assistente di intelligenza artificiale, una collezione di agenti di intelligenza artificiale vincolati potrebbe diventare il modo in cui interagiamo con il web.”