Ogni giorno assistiamo alla nascita di nuovi chatbot, creati sia da grandi aziende tecnologiche o recentemente finanziate, che dalla comunità open source. Molti sviluppatori, nella corsa per replicare il successo di ChatGPT di OpenAI, stanno prendendo molte scorciatoie. Attualmente, la pratica più comune consiste nell’addestrare i chatbot utilizzando dati generati da ChatGPT.
L’ultimo chatbot afferma di superare ChatGPT. OpenChat, un’alternativa di chat open source che si promuove come decentralizzata, ha recentemente ottenuto un punteggio del 105,7% rispetto a ChatGPT nel Vicuna GPT-4 Benchmark. Un risultato straordinario, ma che merita un’attenta valutazione.
Questo è il secondo modello che afferma di superare ChatGPT nello stesso Vicuna Benchmark. In precedenza, Orca, un modello con 13 miliardi di parametri addestrato anch’esso sui dati di GPT-4, ha dichiarato di superare il modello di OpenAI.
Prima di tutto, è importante sottolineare che OpenChat è basato su LLaMA-13B. Ciò significa che il modello non è ancora pronto per un utilizzo commerciale, poiché LLaMA di Meta è stato sviluppato solo a scopo di ricerca e non per un utilizzo commerciale. Inoltre, c’è un’altra considerazione da fare prima di elogiare i risultati del benchmark: il dataset utilizzato per il fine-tuning. Questo modello basato su LLaMA viene addestrato su un set di 6.000 conversazioni, provenienti dalle 90.000 disponibili su ShareGPT, un hub per la condivisione di output generati da ChatGPT e GPT-4 su Internet.
Quando si valuta e si confronta il modello nel Vicuna GPT-4 Benchmark, viene misurato solo lo stile e non le informazioni generate dal modello. Inoltre, questa metrica di valutazione si basa su GPT, il che significa che qualsiasi modello addestrato sui dati di ChatGPT o GPT-4 otterrà un punteggio più alto quando testato da GPT, rendendo il benchmark poco affidabile.
Recentemente, Hugging Face ha riscontrato problemi simili anche con altri modelli open source. I fondatori di Hugging Face hanno sottolineato una grande discrepanza tra i benchmark di valutazione riportati nella documentazione dei modelli e quelli ottenuti effettivamente nei benchmark di Hugging Face. David Hinkle, vicepresidente dell’ingegneria del software presso Securly, ha evidenziato il fatto che molti modelli recenti che dichiarano di superare LLaMA o GPT-4 non sono presenti nella classifica Open LLM.
In breve, è una grande affermazione sostenere che un modello addestrato sui dati di ChatGPT superi lo stesso modello durante il benchmarking basato sulla stessa metrica. Per fare un’analogia, è come se uno studente riscrivesse le risposte di un esame per farle coincidere con quelle corrette fornite dall’insegnante, e poi l’insegnante valutasse nuovamente le risposte. È ovvio che il risultato sarebbe migliore.
Andriy Mulyar di Atlas Nomic AI ha sottolineato che tutto questo è solo un falso clamore. Le persone che imitano ChatGPT utilizzando l’output generato da ChatGPT stanno percorrendo una strada sbagliata. Inoltre, l’unica cosa che questi modelli stanno copiando è lo stile di ChatGPT, migliorando la qualità dei chatbot solo in singole attività. Se valutiamo le prestazioni tenendo conto di tutte le attività generali, ChatGPT rimane un assistente molto migliore di qualsiasi altro.
È interessante notare che, dopo tutte le critiche ricevute, i ricercatori si sono resi conto che c’è un problema nella valutazione del modello nel Vicuna GPT-4 Benchmark. Pertanto, hanno deciso di passare a MT-bench per testare le prestazioni di OpenChat. In questo caso, il modello ha ottenuto risultati significativamente inferiori rispetto a ChatGPT basato su GPT-3.5, mettendo in evidenza la discrepanza tra i benchmark di valutazione.
Gli utenti su Twitter hanno sottolineato che il modello allucina ancora di più rispetto a ChatGPT, e che le sole metriche di valutazione utilizzate per questi modelli non sono sufficienti. “Ho appena provato questo modello e non funziona affatto bene. Hai mai provato il modello prima di pubblicarlo?”, ha detto un utente di Twitter.
Qualunque siano le metriche e i benchmark, sta diventando sempre più chiaro che per i chatbot basati su LLM i dati di alta qualità svolgono un ruolo fondamentale. Pertanto, l’unico modello che merita riconoscimenti è ChatGPT, poiché ogni modello attuale viene addestrato utilizzando i dati sintetici generati da ChatGPT. Nessuno possiede il segreto che OpenAI ha creato per GPT. Recentemente, è stata posta a OpenAI la domanda se l’open source sarebbe stato in grado di replicare ciò che l’azienda ha costruito tramite Vicuna o LLaMA, e Ilya Sutskever ha risposto negativamente.
La tendenza di “questo nuovo modello supera tutti gli altri nei benchmark” continua da un po’ di tempo, ma se valutata utilizzando le stesse metriche degli altri modelli, “il nuovo modello” non riesce a dimostrare le sue capacità. Inoltre, anche se la comunità open source ha cercato di replicare ChatGPT, addestrarlo utilizzando i dati generati da ChatGPT potrebbe non essere la soluzione migliore, poiché OpenAI sta già affrontando diverse azioni legali per l’utilizzo dei dati presenti su Internet.