Matt Shumer, co-fondatore e CEO di Hyperwrite AI, ha annunciato sui social di aver perfezionato una versione open source del modello Llama 3.1-70B di Meta, dando vita a Reflection 70B. Shumer ha dichiarato che Reflection 70B era il “miglior modello open source al mondo”, basandosi sui risultati di benchmark pubblicati.
Tuttavia, la comunità di ricerca sull’AI ha riscontrato difficoltà nel riprodurre questi risultati, sollevando accuse di frode e innescando un’ondata di critiche sui social come Reddit e X. Per rispondere alle preoccupazioni, Shumer ha collaborato con Sahil Chaudhary, fondatore della startup di AI Glaive, il cui set di dati sintetici è stato utilizzato per addestrare Reflection 70B.
Quasi un mese dopo, Chaudhary ha pubblicato un rapporto post-mortem sul suo blog, condividendo risorse per consentire alla comunità di testare autonomamente il modello e il processo di addestramento. Chaudhary ha ammesso di aver trovato un bug nel codice originale che aveva gonfiato alcuni risultati, ma ha anche notato che altri benchmark risultavano migliori rispetto ai test iniziali.
Per ripristinare la fiducia e la trasparenza, Chaudhary ha condiviso:
- Pesi del modello: disponibili su Hugging Face per consentire l’accesso pubblico al modello pre-addestrato.
- Dati di addestramento: resi pubblici per consentire test indipendenti.
- Script di addestramento e codice di valutazione: disponibili su GitHub per riprodurre il processo di addestramento e valutazione.
Nel suo rapporto, Chaudhary ha spiegato che il problema principale derivava da un bug nel codice di valutazione, che causava punteggi gonfiati per alcune attività. I benchmark corretti mostrano prestazioni leggermente inferiori ma ancora elevate rispetto al report iniziale.
- MMLU: 90,94% (rispetto all’89,9% dichiarato inizialmente)
- MATEMATICA: 70,8% (rispetto al 79,7%)
- GSM8K: 95,22% (rispetto al 99,2%)
Sebbene i punteggi rivisti siano inferiori a quelli inizialmente riportati, Chaudhary sostiene che riflettano più accuratamente le capacità del modello. Ha inoltre confermato che non ci sono state sovrapposizioni significative tra i dati di addestramento e i set di riferimento.
Chaudhary ha ammesso che il lancio di Reflection 70B è stato troppo affrettato, spinto dall’entusiasmo per le sue prestazioni nei compiti di ragionamento. Ha riconosciuto che il modello avrebbe dovuto essere testato più approfonditamente e che era necessaria maggiore trasparenza sui suoi punti di forza e debolezza.
In risposta alle accuse riguardanti l’uso dell’API di Claude di Anthropic, Chaudhary ha negato qualsiasi coinvolgimento con il modello di Anthropic e ha confermato che l’API è stata eseguita sulla propria infrastruttura.
Chaudhary ha espresso la speranza che il rapporto post-mortem e la condivisione delle risorse possano contribuire a ripristinare la fiducia nel progetto. Shumer ha aggiunto di essere ancora impegnato nella validazione del modello e di continuare a credere nell’approccio di “reflection tuning”. Tuttavia, restano dubbi tra la comunità AI, che si sente tradita dalle affermazioni iniziali.
Nonostante le critiche, Chaudhary incoraggia ulteriori sperimentazioni sull’approccio reflection tuning, affermando che ha del potenziale per migliorare l’accuratezza delle risposte AI. La comunità AI, comunque, rimane cauta mentre attende ulteriori sviluppi e prove concrete.