Un gruppo di ricercatori sta esplorando l’applicazione dei principi dei modelli di base anche al campo degli agenti di base, sistemi di intelligenza artificiale in grado di prendere decisioni in ambienti fisici senza limiti temporali definiti. Questo nuovo approccio potrebbe rivoluzionare il modo in cui affrontiamo il processo decisionale nei mondi fisici e virtuali.
Gli agenti di fondazione, come li chiamano i ricercatori dell’Università dell’Accademia Cinese delle Scienze, sono descritti come agenti generalmente capaci attraverso mondi fisici e virtuali. Questi agenti rappresenterebbero un cambio di paradigma simile a quello avvenuto con i modelli linguistici di grandi dimensioni (LLM), che hanno rivoluzionato la comprensione del linguaggio.
Questi agenti potrebbero semplificare la creazione di sistemi di intelligenza artificiale per il mondo reale e avere un impatto significativo su campi che attualmente dipendono da sistemi fragili e specifici per compiti.
Gli approcci tradizionali al processo decisionale dell’intelligenza artificiale hanno limiti. I sistemi esperti dipendono fortemente dalla conoscenza umana formalizzata e dalle regole create manualmente. I sistemi di apprendimento per rinforzo (RL) richiedono un addestramento da zero per ogni nuovo compito, il che li rende inefficienti e limitati nella capacità di adattarsi a nuovi ambienti. Anche l’apprendimento per imitazione (IL) richiede sforzi umani considerevoli per creare esempi di addestramento e sequenze di azioni.
Al contrario, i modelli linguistici di grandi dimensioni e i modelli del linguaggio visivo (VLM) possono adattarsi rapidamente a vari compiti con una messa a punto minima. I ricercatori credono che lo stesso approccio potrebbe essere utilizzato per creare agenti di fondazione in grado di affrontare compiti decisionali nel mondo fisico e virtuale.
Questi agenti avrebbero alcune caratteristiche chiave, come una rappresentazione unificata degli stati dell’ambiente, delle azioni degli agenti e dei segnali di feedback, un’interfaccia politica unificata e un processo decisionale basato sul ragionamento sulla conoscenza del mondo, sull’ambiente e su altri agenti.
I ricercatori propongono una tabella di marcia per lo sviluppo di agenti di fondazione, che include la raccolta di dati interattivi su larga scala, il pre-addestramento degli agenti su dati non etichettati e l’allineamento degli agenti con modelli linguistici di grandi dimensioni.
Sebbene ci siano sfide da affrontare, come la complessità delle informazioni nel mondo fisico e la necessità di un’interfaccia politica unificata, i ricercatori credono che gli agenti di fondazione possano rivoluzionare il modo in cui prendiamo decisioni nei mondi fisici e virtuali.