Le capacità di codifica dei modelli stanno facendo progressi vertiginosi, mentre la performance nel generare testi o costruire agenti conversazionali sembra avanzare con più lentezza. Questa differenza non è un effetto casuale né una questione di marketing: è il frutto di una dinamica strutturale, spesso chiamata “reinforcement gap” (divario di rinforzo RL).
La codifica è un campo quasi ideale per il reinforcement learning, perché offre un terreno dove gli errori possono essere rilevati, misurati e corretti in modo quasi oggettivo tramite test, unit test, integrazione, verifiche statiche e logiche. In quel contesto, il modello può “tentare e sbagliare” milioni di varianti, ricevere ricompense per il codice funzionante e penalità per gli errori, e affinarsi iterazione dopo iterazione. In pratica, per l’IA, la scrittura di codice è una palestra dove l’errore è chiaramente definito e la ricompensa è misurabile.
Al contrario, quando un modello generativo elabora un testo — che sia un’email, un articolo, una risposta conversazionale — non esiste un “test di correttezza” univoco e universale. Non c’è una metrica unica e oggettiva che possa sancire che un testo sia “migliore” rispetto a un altro, o che la risposta sia “corretta” nel senso assoluto. Queste aree ricadono nella zona grigia del giudizio soggettivo: stile, tono, coerenza, contesto implicito — tutti elementi che sfuggono alle valutazioni automatiche. In tali scenari, il progresso dell’IA è rallentato. È questa la radice del “gap”: dove il feedback può essere quantificato in modo affidabile, i modelli crescono più rapidamente; dove no, avanzano a passo lento.
Negli ultimi mesi, GPT-5, Gemini 2.5 e Sonnet 4.5 (il modello recente di Anthropic) hanno mostrato miglioramenti sostanziali nelle abilità di programmazione, ben superiori rispetto al lento progresso in compiti generativi generici. Il salto è visibile: modelli capaci di generare codice funzionante, risolvere bug complessi, comporre frammenti logici che dialogano fra loro. In buona misura, questo progresso è stato alimentato dall’uso massiccio del reinforcement learning.
Non significa che la generazione di testi non migliori: semplicemente, il ritmo è più morbido. Ogni miglioramento richiede un lavoro di allineamento, valutazione umana dei risultati, criteri di preferenza e raffinamento costante. In ambiti dove non si possono definire metriche “pass/fail” chiare, l’IA si muove con cautela. Ciò crea una discontinuità: agli sviluppatori, agli imprenditori e ai ricercatori, appare che il “codice” venga trasformato più velocemente dell’“aiutare a scrivere”.
Naturalmente, questo divario non è un destino immutabile. Le stesse tecniche che oggi sembrano privilegiare la codifica possono essere utilizzate per rendere più misurabili compiti un tempo considerati “oscilli” soggettivi. In alcuni casi, è già successo: modelli video che rispettano leggi fisiche, coerenza spaziale negli oggetti, continuità nei volti — queste caratteristiche possono essere trasformate in metriche testabili, e alcuni progressi recenti suggeriscono che compiti come la generazione di video stanno accedendo alla fascia “reinforcement-friendly” dell’IA. Ad esempio, il modello Sora 2 ha dimostrato capacità sorprendenti di rispettare vincoli realistici e fisici nelle sequenze video, indicando che dietro quelle abilità potrebbe esserci un sistema di valutazione e ricompensa.
Questo non significa che non ci siano sfide pratiche e limiti da affrontare. I modelli che generano codice possono comunque produrre risultati incompleti, errori di integrazione, vulnerabilità di sicurezza o soluzioni che non si incastrano bene nei sistemi esistenti. Qui, entra in gioco il lavoro umano: verifiche, integrazioni, controlli, debugging, revisione. Persino con RL, l’IA non è una bacchetta magica che risolve ogni problema da sola. La differenza è che l’IA è meglio equipaggiata per “sperimentare” e autocorreggersi nel dominio della codifica.
Un ulteriore elemento interessante è che, nei contesti di sviluppo, molti test sono già “automatizzati”: gli sviluppatori scrivono unit test, check di compatibilità, CI/CD pipeline che validano commit. Questi stessi strumenti, già presenti nell’ecosistema software, forniscono l’infrastruttura per far “allenare” i modelli: i test diventano segnali di ricompensa per le modifiche proposte. Così, Tooling e AI si intrecciano naturalmente nel ciclo di produzione del software.
Guardando più avanti, ci si chiede se la distinzione potrà attenuarsi. Forse lo farà, se si sviluppano tecniche che traducono compiti soggettivi in metriche proxy: un sistema che valuta coerenza del discorso, rileva errori logici o misura la pertinenza nel contesto. Se si riuscirà a costruire “kit di test” per valutare le produzioni generative in modo affidabile, anche i miglioramenti nella scrittura e nella conversazione potranno “superare” la relativa lentezza attuale.
Del resto, il modello RL itself with feedback list (o RLAIF) cerca di superare alcune limitazioni di RLHF (reinforcement learning da feedback umano) usando feedback generato da modelli stessi — una strada che potrebbe rendere i compiti soggettivi più allenabili in modo efficiente.
L’analisi del “reinforcement gap” ha implicazioni che vanno oltre la tecnologia: tocca occupazione, industria e competitività. Se i modelli continueranno a migliorare più rapidamente nei compiti “testabili”, le professioni che gravitano attorno al codice subiranno un’accelerazione dell’automazione. Al contrario, compiti centrati su creatività, strategia, interpretazione complessa resteranno più resistenti al cambiamento rapido. Le aree “vincolabili a metriche” diventeranno prioritarie per investimenti e innovazione.