Il mondo dell’intelligenza artificiale è stato scosso da una controversia tra OpenAI e xAI, l’azienda fondata da Elon Musk. Al centro del dibattito vi sono le accuse di manipolazione dei benchmark relativi al nuovo modello di xAI, Grok-3.​

Boris Power, responsabile della ricerca applicata di OpenAI, ha espresso delusione riguardo ai metodi utilizzati dal team di Grok per presentare i risultati dei benchmark. In particolare, ha affermato che Grok-3 non supera o3-mini di OpenAI in nessun benchmark, criticando l’esagerazione delle prestazioni del modello da parte di xAI.​

Igor Babuschkin, cofondatore e leader dell’ingegneria di xAI, ha risposto alle accuse definendole completamente errate. Ha sottolineato che xAI ha seguito le stesse metodologie utilizzate da OpenAI per i benchmark, contestando l’idea di manipolazione.​

La disputa si concentra sui risultati del test AIME 2025, un benchmark composto da problemi matematici di alta difficoltà. xAI ha pubblicato grafici in cui le varianti di Grok-3 mostrano performance superiori rispetto a o3-mini-high di OpenAI. Tuttavia, OpenAI ha contestato questi risultati, sostenendo che xAI non ha utilizzato il metodo ‘cons@64’ per calcolare i punteggi di o3-mini-high, una tecnica che può influenzare significativamente i risultati dei benchmark.

Di Fantasy