Strumenti come GPT-5, Claude e Gemini vengono universalmente percepiti come il futuro della programmazione, capaci di generare codice a velocità inimmaginabili. Tuttavia, un recente e sorprendente studio condotto da ricercatori britannici getta un’ombra significativa su questa narrazione, dimostrando che, in un campo di battaglia incentrato sulla pianificazione strategica complessa, il codice scritto da studenti universitari nel lontano 2020 ha letteralmente “sbaragliato” gli agenti di nuova generazione programmati con l’ausilio delle più sofisticate intelligenze artificiali.
L’esperimento, intitolato significativamente “Può il vibe coding battere gli studenti universitari in informatica? Un torneo di programmazione LLM contro umani sulla pianificazione strategica basata sul mercato”, non si è limitato ai tradizionali e talvolta limitanti test basati su soluzioni binarie, ma ha costruito uno scenario di sfida molto più aperto e complesso. Il banco di prova scelto è stato l’Auction, Pickup and Delivery Problem (APDP), un sofisticato problema logistico in due fasi, molto più vicino alle sfide del mondo reale. Nella prima fase, gli agenti dovevano competere in aste inverse per aggiudicarsi compiti di consegna, bilanciando il rischio di perdere l’incarico con offerte troppo alte o di rimetterci denaro con offerte troppo basse. La seconda fase richiedeva una pianificazione efficiente del percorso per le merci vinte, gestendo veicoli con diverse capacità e rispettando vincoli di tempo e risorse. La complessità di questo problema non è secondaria: il cuore logistico dell’APDP è noto per essere NP-hard, il che significa che trovare la soluzione ottimale in tempi ragionevoli è praticamente impossibile con la forza bruta, costringendo gli agenti a una vera e propria ragione strategica e a compromessi tra precisione e velocità.
La composizione dei contendenti ha reso il confronto particolarmente affascinante. Da un lato, gli agenti “umani” provenivano da un corso di intelligenza artificiale del 2020 presso l’Istituto Federale Svizzero di Tecnologia di Losanna, creati prima che gli LLM rivoluzionassero il mondo del codice. Si trattava, in sostanza, di soluzioni “raw” basate su un ragionamento algoritmico umano. Dall’altro lato, i 40 agenti “vibe-coded” sono stati creati da studenti attuali, che hanno sfruttato l’aiuto delle migliori LLM disponibili, tra cui GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1 e Deepseek R1, utilizzando diverse strategie di prompting e revisione.
Il torneo è stato una prova di resistenza massiccia: 12 gironi all’italiana, che hanno visto gli agenti affrontarsi in oltre 38.304 partite su quattro diverse topologie di rete stradale modellate su paesi europei. Il risultato è stato un verdetto schiacciante: gli agenti umani del 2020 non solo hanno vinto, ma hanno dominato. I primi cinque posti della classifica finale sono stati costantemente occupati da agenti il cui codice era stato scritto interamente dall’uomo, senza alcun aiuto di intelligenza artificiale. I dati sono impietosi: la maggior parte degli agenti programmati con l’ausilio delle LLM (ben 33 su 40) è stata battuta senza sforzo persino da agenti baseline molto semplici che seguivano euristiche fisse.
I ricercatori hanno persino concesso alle LLM un vantaggio cruciale: la possibilità di intervenire nel loro codice per migliorarne le prestazioni, un lusso non concesso alle soluzioni del 2020. Nonostante ciò, le intelligenze artificiali non sono riuscite a colmare il divario. Anzi, una delle criticità più illuminanti emerse è stata proprio l’incapacità delle LLM di accettare o utilizzare codice correttivo, persino quando una soluzione efficace veniva esposta esplicitamente nel context di prompting. A livello di debugging, inoltre, i modelli hanno spesso fallito ripetutamente nel risolvere un bug specifico, come un time-out ricorrente, costringendo i ricercatori a ricominciare la generazione dell’agente da zero. Questo aspetto solleva interrogativi fondamentali sui limiti dell’apprendimento in-context e della risoluzione dei problemi basata sul retrieval in contesti complessi.
La conclusione degli autori è netta e va dritta al punto: sebbene le LLM più avanzate siano perfettamente in grado di generare codice sintatticamente corretto e funzionante, tale soluzione si rivela non competitiva quando il problema richiede capacità di pianificazione strategica, ottimizzazione o competizione multi-agente profonda. L’abilità di produrre codice pulito non si traduce automaticamente nella capacità di codificare la ragione strategica necessaria a vincere in un ambiente competitivo e complesso. Questo studio sposta quindi l’attenzione verso una nuova frontiera della generazione di codice, suggerendo che le metriche di valutazione future dovranno abbandonare i test superficiali e concentrarsi su benchmark che stressino la vera sintesi del codice guidata dal ragionamento. L’eredità del codice scritto dagli studenti del 2020 si è rivelata non solo robusta, ma superiore, dimostrando che l’intuizione e la strategia umana mantengono ancora un netto vantaggio sulle capacità di generazione automatica dell’intelligenza artificiale, almeno nel campo della competizione strategica complessa.
