Il nuovo modello di intelligenza artificiale open source Reflection 70B, recentemente presentato come il miglior LLM open source, è al centro di una polemica. Reflection 70B è una variante del modello Llama 3 di Meta, sviluppata dalla startup newyorkese HyperWrite (precedentemente chiamata OthersideAI). Dopo essere stato lodato per le sue prestazioni in vari benchmark, il modello è ora accusato di non mantenere le promesse fatte.

Il 6 settembre 2024, Matt Shumer, co-fondatore e CEO di HyperWrite, ha annunciato con entusiasmo Reflection 70B come “il miglior modello open source al mondo”. Shumer ha spiegato che il modello utilizza una tecnica chiamata “Reflection Tuning”, che migliora l’accuratezza delle risposte generando e verificando le risposte prima di inviarle agli utenti.

Tuttavia, il 7 settembre, Artificial Analysis, un’organizzazione che si occupa di analisi indipendente di modelli AI, ha pubblicato una valutazione critica. L’analisi ha mostrato che Reflection 70B ha ottenuto punteggi simili a quelli del modello Llama 3 70B, e significativamente inferiori rispetto al Llama 3.1 70B di Meta. Questa discrepanza ha sollevato dubbi sulle prestazioni reali del modello.

In risposta alle critiche, Shumer ha dichiarato che i pesi di Reflection 70B caricati su Hugging Face, il repository per il codice AI di terze parti, erano errati e non rappresentavano la versione interna di HyperWrite. Ha promesso che i pesi corretti saranno presto resi disponibili.

Il 8 settembre, Artificial Analysis ha testato un’API privata di Reflection 70B e ha confermato che le prestazioni erano buone, ma non all’altezza delle affermazioni iniziali. L’organizzazione ha sollevato due questioni principali:

  • La versione pubblica del modello potrebbe non essere quella testata tramite l’API privata.
  • I pesi del modello non sono stati ancora resi noti.

Nel frattempo, le discussioni sui forum e subreddit dedicati all’AI hanno sollevato ulteriori dubbi, con alcuni utenti che sostengono che Reflection 70B sia in realtà una variante di Llama 3 piuttosto che di Llama 3.1, mettendo ulteriormente in discussione le dichiarazioni di HyperWrite.

Le accuse sono aumentate, con alcuni utenti che accusano Shumer di “frode nella comunità di ricerca sull’intelligenza artificiale”. Tuttavia, ci sono anche sostenitori che lodano le prestazioni del modello.

Di Fantasy