Gli Agenti AI di programmazione ai si sfidano su “campo minato”

L’idea di affidare a un agente di intelligenza artificiale la realizzazione completa di un videogioco può sembrare, a prima vista, un esercizio quasi banale. Eppure, quando il gioco in questione è Campo Minato, uno dei software più iconici e al tempo stesso più insidiosi della storia di Windows, il risultato diventa un banco di prova estremamente interessante per valutare il reale stato dell’arte della codifica automatizzata. È proprio questo l’obiettivo dell’esperimento condotto da Ars Technica, che ha messo a confronto quattro agenti di programmazione AI in condizioni identiche, senza alcun intervento umano, per capire fino a che punto queste tecnologie siano oggi in grado di andare oltre la semplice imitazione di codice esistente.

Il test è stato concepito come una sfida equa e rigorosa. A ciascun agente è stato richiesto di ricreare una versione web completa di Campo Minato, fedele all’originale ma arricchita da elementi moderni. Non si trattava solo di far funzionare la logica di gioco, ma di integrare effetti sonori, supporto ai touchscreen dei dispositivi mobili, compatibilità desktop e un elemento di sorpresa capace di aggiungere un tocco di creatività. Tutto questo doveva avvenire in modo autonomo, con gli agenti liberi di manipolare direttamente file HTML e script locali, ma senza debugging manuale, correzioni esterne o suggerimenti successivi.

I protagonisti della prova erano quattro nomi di primo piano nel panorama dell’intelligenza artificiale applicata alla programmazione. Da un lato c’era Codex di OpenAI, basato su GPT-5, affiancato da Claude Code di Anthropic, Gemini CLI di Google e Vibe di Mistral. Le aziende coinvolte non erano state informate del test, che è stato condotto utilizzando versioni a pagamento dei modelli, proprio per evitare qualsiasi forma di ottimizzazione mirata o trattamento di favore. La valutazione finale è stata affidata a esperti di Campo Minato, chiamati a giudicare i risultati alla cieca, senza sapere quale modello avesse prodotto ciascun gioco.

Il risultato più convincente è stato quello di OpenAI Codex. Il gioco generato da questo agente è stato giudicato quasi pronto per il rilascio, non solo per l’aspetto visivo curato, ma soprattutto per l’attenzione ai dettagli funzionali. Codex è stato l’unico a implementare correttamente il cosiddetto chording, una funzionalità avanzata che permette di sbloccare automaticamente le caselle circostanti quando le bandierine sono state posizionate in modo corretto. Si tratta di un elemento molto apprezzato dai giocatori esperti, spesso assente nelle versioni semplificate del gioco. A questo si aggiungevano un sistema audio coerente e funzionante, una guida chiara ai comandi per mobile e desktop e una variante creativa come il pulsante “Lucky Sweep”, pensato per sbloccare uno spazio sicuro in condizioni specifiche. Nonostante una velocità di scrittura del codice inferiore rispetto ad altri concorrenti, il punteggio assegnato è stato altissimo, segno di una comprensione profonda sia della struttura del gioco sia delle aspettative dell’utente finale.

Subito dietro si è posizionato Claude Code di Anthropic. Questo agente ha colpito per la rapidità di esecuzione, completando il lavoro in circa metà del tempo di Codex, e per una qualità visiva particolarmente raffinata. La grafica personalizzata, con icone riconoscibili e dettagli estetici curati, ha dato al gioco un’identità visiva forte, accompagnata da una buona gestione dell’audio e da una compatibilità solida su diversi dispositivi. Claude Code ha introdotto anche una modalità alternativa, chiamata “Power Mode”, che offriva piccoli potenziamenti al giocatore. Tuttavia, l’assenza del chording è stata considerata una mancanza rilevante, soprattutto in un confronto così tecnico, e ha inciso in modo significativo sul punteggio finale, che si è fermato a un livello buono ma non eccellente.

Il terzo classificato, Vibe di Mistral, ha mostrato luci e ombre. Il gioco risultava giocabile nella sua struttura di base, ma appariva chiaramente incompleto. Alcune parti del codice non erano pienamente implementate, gli effetti sonori risultavano assenti o parziali e alcune funzionalità promesse, come un pulsante di personalizzazione, non funzionavano correttamente. Anche dal punto di vista creativo mancava quell’elemento di sorpresa richiesto dal test. Nonostante ciò, i valutatori hanno riconosciuto che il risultato assume un peso diverso se si considera che Mistral opera con risorse più limitate rispetto ai grandi colossi tecnologici, riuscendo comunque a produrre un output funzionante, seppur acerbo.

Il caso più problematico è stato quello di Gemini CLI di Google. In questo scenario, il gioco generato risultava di fatto inutilizzabile. I pulsanti erano presenti, ma le tessere non venivano visualizzate, rendendo impossibile qualsiasi interazione reale. Ogni esecuzione del codice richiedeva tempi molto lunghi e le continue richieste di dipendenze esterne hanno complicato ulteriormente il processo di test. Anche fornendo istruzioni aggiuntive per limitarsi a tecnologie standard come HTML5, i risultati non sono migliorati. Va precisato che Gemini CLI si basa sulla serie Gemini 2.5 e non sull’ultimo modello di codifica Gemini 3, il che rende questo risultato potenzialmente non definitivo, ma resta comunque indicativo delle difficoltà incontrate.

Nel complesso, l’esperimento di Ars Technica offre uno spaccato molto chiaro sullo stato attuale della codifica basata su agenti AI. Da un lato emerge un potenziale enorme, capace in alcuni casi di produrre software complessi e quasi pronti all’uso senza alcun intervento umano. Dall’altro, diventano evidenti i limiti strutturali, soprattutto quando si richiede non solo di replicare qualcosa di esistente, ma di comprendere a fondo le regole implicite di un sistema e di estenderlo in modo creativo e coerente. Il test su Campo Minato dimostra che la “via di mezzo” della codifica AI è ormai raggiungibile, ma anche che, almeno per ora, la revisione umana rimane un passaggio essenziale per trasformare questi risultati in prodotti affidabili e pronti per il mondo reale.

Gli Agenti AI di programmazione ai si sfidano su “campo minato”

DiFantasy

Di Fantasy

Articoli correlati

xAI Grok 4.5 entra in beta privata con focus su coding e ragionamento tecnico

OpenAI testa i crediti regalo per Codex tra utenti della piattaforma

DeepSeek presenta D-Spark per accelerare l’inferenza dei modelli linguistici con speculative decoding

Ultimi Post

xAI Grok 4.5 entra in beta privata con focus su coding e ragionamento tecnico

OpenAI testa i crediti regalo per Codex tra utenti della piattaforma

DeepSeek presenta D-Spark per accelerare l’inferenza dei modelli linguistici con speculative decoding

GLM-5.2 porta la ricerca di vulnerabilità software a livello di Mythos 5