Recentemente, sono stati lanciati i modelli WizardCoder 34B, basati su Code Llama e ottimizzati da Wizard LM e Phind. Al momento, sta infuocandosi una discussione tra Wizard LM e Phind riguardo all’utilizzo del set di dati in stile WizardCoder di Wizard LM da parte di Phind per addestrare il loro modello V1. Nonostante Phind abbia respinto queste accuse, il dibattito è ancora in corso.
La comunità sta valutando con grande attenzione il test HumanEval di OpenAI, cercando di superare GPT-4 in diverse sfide. Poco dopo il lancio di Code Llama, Wizard LM ha presentato WizardCoder 34B, una versione ottimizzata basata su Code Llama. L’azienda ha annunciato con orgoglio che WizardCoder 34B ha ottenuto risultati addirittura migliori di GPT-4, ChatGPT-3.5 e Claude-2 su HumanEval, con una percentuale di successo del 73,2% al primo tentativo.
Sembra che Wizard LM abbia cercato abilmente di enfatizzare il risultato del 73,2%, ma è emerso che questo punteggio è stato confrontato con il punteggio HumanEval di marzo di GPT-4, anziché con il punteggio dell’agosto successivo, quando GPT-4 ha raggiunto l’82%. Questi dati sono stati presentati nel Technical Report di GPT-4 (2023/03/15). Questa discrepanza solleva delle domande sulla valutazione equa tra i modelli.
Tuttavia, Wizard LM non è l’unico attore in questo scenario. Un’altra startup, Phind, ha annunciato che le loro versioni ottimizzate, CodeLlama-34B e CodeLlama-34B-Python, hanno ottenuto rispettivamente il 67,6% e il 69,5% su HumanEval utilizzando il loro set di dati Phind. Questi risultati sono paragonabili a quelli di GPT-4.
Questo evidenzia come la comunità open source continui a considerare GPT-4 come punto di riferimento principale. È comune vedere riferimenti a GPT nei documenti di ricerca basati su LLM di Meta, soprattutto quando si confrontano le prestazioni con modelli basati su GPT, soprattutto tramite le valutazioni di OpenAI come HumanEval.
In modo interessante, c’è una relazione simbiotica tra Meta e OpenAI. Nel documento “Code Llama: Open Foundation Models for Code,” “GPT” compare 37 volte, mentre “Meta” o “LLaMA” non vengono menzionati nel “GPT-4 Technical Report” di OpenAI. Questo solleva la questione di cosa accadrebbe se la comunità open source smettesse di basare i confronti sui modelli closed source. Le metriche di valutazione create da OpenAI sembrano dare una direzione alle prestazioni e alla posizione dei modelli open source.
Nel documento di ricerca di Code Llama, Meta non ha introdotto metriche di valutazione proprie. Oltre a HumanEval, l’unico parametro menzionato è MBPP (Mostly Basic Python Programming), sviluppato da Google. È rilevante notare che GPT-4 si occupa di compiti molto più ampi rispetto alla semplice codifica, mentre Meta sta focalizzando i propri modelli su compiti specifici per superare GPT-4 in quei campi.
Se un modello è progettato specificamente per la codifica, ha buone possibilità di competere con GPT-4. Le prestazioni di Phind sono simili a quelle di GPT-4 su HumanEval. Inoltre, c’è la possibilità che Code Llama abbia utilizzato dati generati da GPT-4 per il proprio addestramento, considerando quanto sarebbe stato difficile avvicinarsi a GPT-4 senza questa base.
Su Reddit, si sta dibattendo se HumanEval sia un parametro adeguato per valutare le capacità di codifica di modelli linguistici avanzati. Si sostiene che risolvere 160 problemi di programmazione in Python con HumanEval non sia rappresentativo delle abilità di un modello di codice, poiché aspetti come la spiegazione del codice, la generazione di docstring, il completamento del codice e altro ancora non vengono considerati.
L’opinione è che le prestazioni reali vadano oltre GPT-4 nel mondo reale. Un utente ha testato vari esempi pratici per la creazione di microservizi Flask minimi e ha constatato che GPT-4 supera ancora tutti gli LLM open source. È interessante notare che Can Xu, un ricercatore senior di Wizard LM, ha accolto i feedback della comunità e si è impegnato a migliorare il modello in base ai suggerimenti ricevuti.
In un’altra conversazione, un utente ha espresso preoccupazione sul fatto che queste metriche di valutazione potrebbero non rappresentare accuratamente le prestazioni dei modelli in scenari reali. Il cofondatore di Phind, Michael Royzen, ha risposto che si tratta di un primo passo per superare i risultati di “Unnatural CodeLlama” e che futuro lavoro renderà i modelli pronti per l’implementazione pratica.
Nonostante i modelli open source possano non essere ancora al livello di GPT-4 e stiano cercando di recuperare il terreno, è positivo vedere la loro interazione aperta con la comunità e la volontà di riconoscere le sfide. La discussione tra Wizard LM e Phind su Reddit è un segno promettente dell’impegno della comunità open source.
Questa trasparenza promuove l'”intelligenza artificiale responsabile,” mentre la riservatezza di OpenAI crea incertezza riguardo ai loro piani futuri.