Il mondo dell’intelligenza artificiale è stato scosso da una controversia tra OpenAI e xAI, l’azienda fondata da Elon Musk. Al centro del dibattito vi sono le accuse di manipolazione dei benchmark relativi al nuovo modello di xAI, Grok-3.
Boris Power, responsabile della ricerca applicata di OpenAI, ha espresso delusione riguardo ai metodi utilizzati dal team di Grok per presentare i risultati dei benchmark. In particolare, ha affermato che Grok-3 non supera o3-mini di OpenAI in nessun benchmark, criticando l’esagerazione delle prestazioni del modello da parte di xAI.
Igor Babuschkin, cofondatore e leader dell’ingegneria di xAI, ha risposto alle accuse definendole completamente errate. Ha sottolineato che xAI ha seguito le stesse metodologie utilizzate da OpenAI per i benchmark, contestando l’idea di manipolazione.
La disputa si concentra sui risultati del test AIME 2025, un benchmark composto da problemi matematici di alta difficoltà. xAI ha pubblicato grafici in cui le varianti di Grok-3 mostrano performance superiori rispetto a o3-mini-high di OpenAI. Tuttavia, OpenAI ha contestato questi risultati, sostenendo che xAI non ha utilizzato il metodo ‘cons@64’ per calcolare i punteggi di o3-mini-high, una tecnica che può influenzare significativamente i risultati dei benchmark.