Recentemente è stato segnalato un caso di successo nell’utilizzo di un modello chiamato “GPT-4V” per giocare a “Red Dead Redemption 2 (RDR2)”, un gioco noto per la sua complessità visiva e sonora e per richiedere il controllo tramite mouse e tastiera del computer. I ricercatori hanno evidenziato che questo va oltre semplici manipolazioni di gioco, mostrando il potenziale dell’intelligenza artificiale (IA) in questo ambito.
Secondo quanto riportato da Tom’s Hardware, studiosi provenienti dalla Cina e Singapore hanno pubblicato uno studio su come un’IA possa giocare a RDR2 senza essere coinvolta direttamente nel gioco o utilizzare API. Questo metodo, chiamato GCC (General Computer Control), permette all’IA di giocare osservando come farebbe un essere umano.
Per realizzare questo, hanno utilizzato GPT-4V, dotato di funzioni di visione e riconoscimento vocale, e sei agenti del modulo chiamati “CRADLE” per collegare e controllare GPT-4V nel gioco.
I ricercatori hanno scelto RDR2 perché rappresenta una sfida computazionale significativa con un sistema di controllo complesso, utile per valutare le prestazioni del loro framework in un ambiente virtuale impegnativo.
Il gioco offre molte situazioni da esplorare ed è considerato un buon ambiente di apprendimento per l’IA, grazie agli elementi dell’interfaccia utente come dialoghi, icone e istruzioni di gioco.
Hanno scoperto che l’IA gestiva meglio il mouse e la tastiera rispetto ad altri software, ma ha incontrato difficoltà durante gli scontri frenetici, l’esplorazione di interni complessi e l’apertura dell’ambiente di gioco. Questi problemi sono stati attribuiti alle limitate capacità spazio-visive di GPT-4V, che hanno influenzato la precisione del controllo.
Inoltre, l’IA ha avuto difficoltà a comprendere alcuni dettagli del gioco, come icone uniche e la minimappa.
Questi risultati sono importanti per lo sviluppo futuro degli agenti IA, poiché molte attività richiederanno l’utilizzo di mouse e tastiera per conto degli utenti umani. Sottolineano l’importanza di sviluppare capacità di ragionamento e visione più sofisticate per un funzionamento ottimale delle IA.