Anthropic ha messo in mostra le avanzate capacità del suo ultimo modello, Claude 3.7 Sonnet, attraverso una dimostrazione pratica: il modello è stato incaricato di giocare al classico videogioco “Pokémon Rosso”. Questa iniziativa non solo evidenzia le potenzialità di Claude 3.7 Sonnet nel comprendere e interagire con ambienti di gioco complessi, ma rappresenta anche un passo significativo nell’evoluzione degli agenti AI autonomi.
Anthropic ha trasmesso in diretta su Twitch una sessione in cui Claude 3.7 Sonnet giocava a “Pokémon Rosso”, un titolo iconico rilasciato nel 1996 per la console Nintendo. Durante la trasmissione, gli spettatori hanno potuto osservare il modello mentre navigava nel mondo di gioco, prendeva decisioni strategiche e affrontava sfide tipiche del gameplay. Un aspetto particolarmente interessante della dimostrazione è stata la visualizzazione, sul lato sinistro dello schermo, dei processi di ragionamento di Claude 3.7 Sonnet, offrendo al pubblico una finestra sul funzionamento interno dell’IA durante la risoluzione dei problemi.
In precedenza, le versioni di Claude prive della modalità di ragionamento avevano mostrato limitazioni significative, come l’incapacità di far uscire il personaggio principale dalla casa iniziale nel gioco. Con l’introduzione della modalità di ragionamento in Claude 3.7 Sonnet, il modello è stato in grado di superare queste limitazioni, arrivando a combattere contro i capi palestra e ottenere le relative medaglie. Questo progresso indica un miglioramento sostanziale nelle capacità di pianificazione e problem-solving del modello, rendendolo più efficace in compiti che richiedono una comprensione approfondita e una strategia adattiva.
L’utilizzo di videogiochi come “Pokémon Rosso” per testare e dimostrare le capacità degli agenti AI non è una novità. Ad esempio, nell’aprile dell’anno precedente, Mistral AI aveva organizzato una competizione tra modelli di linguaggio di grandi dimensioni utilizzando il gioco “Street Fighter”, in cui GPT-3.5 di OpenAI aveva prevalso sugli altri modelli. Tuttavia, mentre quella competizione si concentrava su comandi di gioco relativamente semplici, la sfida affrontata da Claude 3.7 Sonnet in “Pokémon Rosso” richiede una gamma più ampia di competenze, tra cui la navigazione in un mondo aperto, l’interazione con personaggi non giocanti e la gestione di risorse, rendendo il test un indicatore più completo delle capacità dell’IA.
La dimostrazione di Claude 3.7 Sonnet rappresenta un passo avanti significativo nell’ambito degli agenti AI autonomi. La capacità di comprendere e interagire efficacemente in ambienti di gioco complessi suggerisce potenziali applicazioni in settori come l’automazione, l’assistenza virtuale e l’intrattenimento interattivo. Inoltre, l’approccio trasparente di Anthropic, che ha condiviso pubblicamente i processi di ragionamento del modello, contribuisce a una maggiore comprensione e fiducia nelle tecnologie AI da parte del pubblico.