OpenAI vs xAI: accuse di manipolazione nei benchmark di Grok-3

DiFantasy

Feb 24, 2025

Il mondo dell’intelligenza artificiale è stato scosso da una controversia tra OpenAI e xAI, l’azienda fondata da Elon Musk. Al centro del dibattito vi sono le accuse di manipolazione dei benchmark relativi al nuovo modello di xAI, Grok-3.

Boris Power, responsabile della ricerca applicata di OpenAI, ha espresso delusione riguardo ai metodi utilizzati dal team di Grok per presentare i risultati dei benchmark. In particolare, ha affermato che Grok-3 non supera o3-mini di OpenAI in nessun benchmark, criticando l’esagerazione delle prestazioni del modello da parte di xAI.

Igor Babuschkin, cofondatore e leader dell’ingegneria di xAI, ha risposto alle accuse definendole completamente errate. Ha sottolineato che xAI ha seguito le stesse metodologie utilizzate da OpenAI per i benchmark, contestando l’idea di manipolazione.

La disputa si concentra sui risultati del test AIME 2025, un benchmark composto da problemi matematici di alta difficoltà. xAI ha pubblicato grafici in cui le varianti di Grok-3 mostrano performance superiori rispetto a o3-mini-high di OpenAI. Tuttavia, OpenAI ha contestato questi risultati, sostenendo che xAI non ha utilizzato il metodo ‘cons@64’ per calcolare i punteggi di o3-mini-high, una tecnica che può influenzare significativamente i risultati dei benchmark.

OpenAI vs xAI: accuse di manipolazione nei benchmark di Grok-3

DiFantasy

Di Fantasy

Articoli correlati

OpenAI prepara una trasformazione di ChatGPT verso agenti AI, programmazione e servizi integrati

Coppa del Mondo FIFA 2026: sensori, AI e arbitraggio assistito trasformano il calcio

OpenAI introduce la Modalità Blocco per limitare il rischio di esfiltrazione dei dati negli agenti AI

Ultimi Post

OpenAI prepara una trasformazione di ChatGPT verso agenti AI, programmazione e servizi integrati

Coppa del Mondo FIFA 2026: sensori, AI e arbitraggio assistito trasformano il calcio

OpenAI introduce la Modalità Blocco per limitare il rischio di esfiltrazione dei dati negli agenti AI

AI agent e sicurezza: uno studio mostra che il 35% comunica dati sensibili anche dopo aver riconosciuto una truffa