E’ emerso che Epoch AI, un’organizzazione no-profit, ha ricevuto finanziamenti da OpenAI per sviluppare il benchmark “FrontierMath”, utilizzato per valutare le prestazioni del modello o3 di OpenAI. La mancata divulgazione di questo supporto finanziario fino al lancio di o3 ha sollevato preoccupazioni riguardo alla trasparenza e all’integrità del processo di valutazione.

Secondo un rapporto di TechCrunch, Epoch AI ha creato “FrontierMath” con il sostegno finanziario di OpenAI, includendo problemi matematici di livello esperto per testare le capacità del modello o3. Tuttavia, questa collaborazione finanziaria non è stata resa pubblica fino al 20 dicembre 2024, data di rilascio di o3, suscitando critiche all’interno della comunità dell’intelligenza artificiale.

Un membro coinvolto nello sviluppo di “FrontierMath” ha affermato che molti collaboratori non erano a conoscenza del finanziamento da parte di OpenAI. Ha sottolineato che Epoch AI avrebbe dovuto dichiarare apertamente il supporto finanziario e informare i collaboratori che il loro lavoro poteva essere utilizzato per migliorare le capacità dell’intelligenza artificiale.

Sui social media, alcuni hanno espresso preoccupazione che OpenAI potesse aver utilizzato i problemi del benchmark per addestrare il modello o3, potenzialmente influenzando i punteggi e compromettendo l’affidabilità del benchmark stesso.

In risposta alle critiche, Tamay Besiroglu, vicepresidente di Epoch AI, ha riconosciuto la mancanza di trasparenza ma ha affermato che l’integrità di “FrontierMath” rimane intatta. Ha aggiunto che OpenAI aveva accettato verbalmente di non utilizzare i problemi del benchmark per l’addestramento del modello e che i dati erano gestiti separatamente.

Tuttavia, Elliott Glazer, capo matematico di Epoch AI, ha dichiarato su Reddit che, fino al completamento di una verifica indipendente, non è possibile confermare se OpenAI abbia utilizzato o meno il dataset per l’addestramento. Ha aggiunto personalmente di ritenere legittimi i punteggi ottenuti da OpenAI e che l’azienda non abbia utilizzato “FrontierMath” per l’addestramento.

Di Fantasy