La recente controversia sui punteggi ottenuti dai modelli di intelligenza artificiale nazionali nelle valutazioni CSAT ha riacceso un dibattito che va ben oltre la semplice classifica delle prestazioni. Al centro della discussione c’è il significato stesso dei test, il modo in cui vengono costruiti e, soprattutto, ciò che realmente misurano. Il team di ricerca guidato dal professor Kim Jong-rak della Sogang University ha preso posizione in modo netto, sottolineando come sia fuorviante confrontare direttamente punteggi ottenuti con obiettivi e metodologie di valutazione profondamente diversi.

La polemica è nata dopo l’annuncio, da parte di un gruppo di ricerca della Sogang University, secondo cui i modelli sviluppati da cinque team d’élite impegnati nella costruzione di modelli di base nazionali avrebbero ottenuto risultati inferiori rispetto a quelli di modelli internazionali. In risposta, l’LG AI Research Center ha condotto una propria rivalutazione, sostenendo che il modello in questione avesse in realtà raggiunto un punteggio di 88,75. Questo dato ha sollevato dubbi e critiche sulla validità della metodologia adottata dal team universitario, alimentando l’idea che la valutazione potesse essere sbilanciata o non rappresentativa.

La replica della Sogang University, arrivata via e-mail il 18, ha chiarito un punto fondamentale: l’obiettivo principale dell’esperimento non era misurare il semplice tasso di risposte corrette, ma valutare quella che viene definita “capacità di ragionamento agente”. In altre parole, il test non mirava a capire quanto spesso un modello arrivasse alla risposta giusta, bensì come affrontasse l’intero processo di risoluzione di un problema complesso, dalla comprensione iniziale alla formulazione di una strategia, fino all’esecuzione e alla riflessione sui risultati ottenuti.

Secondo il team di ricerca, l’esperimento è stato progettato per analizzare la “capacità di risoluzione completa dei problemi”. Questo implica la capacità del modello di strutturare correttamente un problema matematico, utilizzare strumenti di calcolo come Python per eseguire operazioni complesse e integrare i risultati numerici nel processo di inferenza finale. In questa prospettiva, confrontare direttamente questi test con valutazioni focalizzate esclusivamente sulla correttezza delle risposte, come quelle condotte dall’LG AI Research Institute, diventa poco sensato. Gli obiettivi di misurazione sono diversi, così come lo sono la struttura del test e i criteri di conversione dei punteggi.

Il professor Kim Jong-rak e il suo team hanno respinto con decisione l’idea che i test siano stati concepiti per favorire o penalizzare specifici modelli. L’esperimento si basa infatti su MathArena, una classifica globale dedicata al ragionamento matematico, e applica la stessa pipeline di valutazione a tutti i modelli analizzati. Sono stati utilizzati gli stessi prompt, lo stesso approccio di ragionamento “Chain-of-Thought” e un formato di risposta rigidamente definito, limitato a due sezioni: “Thought” e “Python”. Questa uniformità metodologica, secondo i ricercatori, garantisce che le differenze nei risultati riflettano reali divergenze nelle capacità dei modelli e non bias introdotti dal test.

Resta però un nodo critico, riconosciuto apertamente anche dal team della Sogang University. Alcuni modelli non supportano nativamente l’uso di strumenti Python, e questo può rappresentare uno svantaggio in problemi matematici complessi, difficili da risolvere senza calcoli espliciti. Le differenze strutturali tra i modelli, dunque, possono aver influito sui punteggi più bassi registrati da alcune soluzioni. Questo non viene negato, ma inquadrato come un limite intrinseco del confronto tra sistemi con architetture e funzionalità diverse.

La questione si complica ulteriormente quando si entra nel tema dell’accesso a risorse esterne. Il team ha fatto notare che ExaOne dispone di una soluzione interna che sfrutta funzionalità di ricerca web, consentendo al modello di accedere a informazioni esterne durante la risoluzione dei problemi CSAT. Questo tipo di accesso può alterare significativamente i risultati, rendendo poco equo il confronto con modelli basati esclusivamente su API chiuse e prive di connessioni dirette a fonti esterne. In questo contesto, i punteggi rischiano di riflettere più le modalità di integrazione degli strumenti che le reali capacità di ragionamento del modello.

Per i ricercatori della Sogang University, il rischio maggiore è che la discussione degeneri in una contrapposizione sterile tra modelli nazionali ed esteri, basata su numeri presi fuori contesto. Il professor Kim Jong-rak ha sottolineato come questa controversia non dovrebbe trasformarsi in una disputa tecnica fine a se stessa, ma piuttosto in un’occasione per riflettere su cosa significhi davvero valutare l’intelligenza artificiale in modo rigoroso e costruttivo.

In quest’ottica si inserisce l’apertura del team a ulteriori valutazioni collaborative. Kim ha dichiarato che, se i diversi gruppi di sviluppo fossero disposti a condividere le proprie strategie di ottimizzazione dei modelli e i relativi prompt, il suo team sarebbe disponibile a condurre nuovi test tenendo conto di queste impostazioni specifiche. La pubblicazione della pipeline sperimentale e del metodo di valutazione su GitHub viene presentata come un invito alla trasparenza e al confronto, con l’auspicio che verifiche di follow-up possano diventare un terreno comune di discussione sulla direzione futura dello sviluppo dei modelli di intelligenza artificiale.

In definitiva, questa vicenda mette in luce un tema cruciale per l’intero settore: i punteggi, da soli, non bastano. Senza una comprensione chiara degli obiettivi, delle metodologie e dei limiti di ciascun test, le classifiche rischiano di diventare strumenti di marketing più che indicatori reali di progresso tecnologico. La discussione avviata dalla Sogang University suggerisce che il futuro della valutazione dell’IA passerà sempre più dalla qualità del ragionamento e dalla trasparenza dei processi, piuttosto che da un singolo numero isolato.

Di Fantasy