La startup cinese Baichuan Intelligent Technology, specializzata nell’intelligenza artificiale, ha di recente presentato due notevoli modelli linguistici open source basati sull’IA, denominati Baichuan 2-7B e Baichuan 2-13B.
Ciò che ha suscitato un notevole interesse è il loro eccezionale rendimento in AGIEval, un benchmark sviluppato da Microsoft Research. Il punteggio ottenuto da Baichuan 2-13B in AGIEval, pari a 48,17, ha superato quello di ChatGPT, che si è fermato a 46,13. Questa notizia ha rapidamente diffuso la voce che Baichuan 2-13B stesse superando ChatGPT in AGIEval.
Questa situazione non è del tutto nuova, poiché ogni volta che un nuovo modello fondamentale viene introdotto, si tende a confrontarlo con ChatGPT. Tuttavia, ciò che suscita domande è come Baichuan 2-13B sia riuscito a farlo.
Va notato che le classifiche dei modelli linguistici su benchmark come AGIEval dipendono ampiamente dal set di dati su cui sono addestrati. In questo caso, AGIEval valuta principalmente le prestazioni dei modelli linguistici in esami di ammissione universitaria come SAT, LSAT e diverse competizioni di matematica.
Ciò che sorprende è che Baichuan 2-13B ha superato ChatGPT a causa del suo addestramento su un vasto set di dati bilingue cinese-inglese composto da milioni di pagine web provenienti da fonti affidabili, coprendo una vasta gamma di domini di valore positivo, tra cui politica, legge, gruppi vulnerabili, valori generali, virtù tradizionali e altro ancora.
Un’analisi più approfondita di AGIEval rivela che, oltre agli esami di ammissione come SAT e LSAT, comprende anche esami cinesi come il Gaokao. Inoltre, questo benchmark si estende a coprire attività bilingui sia in cinese che in inglese.
Al contrario, modelli open source come LLaMA e Llama 2 si concentrano principalmente sull’inglese. Per esempio, la principale fonte di dati per LLaMA è il Common Crawl, che rappresenta il 67% dei dati di pre-formazione di LLaMA, ma è limitato al contenuto in lingua inglese.
Baichuan ha sede in Cina, il che gli conferisce un accesso agevole ai materiali cinesi per l’addestramento del suo modello. Recentemente, è emersa la notizia che le autorità cinesi hanno concesso a Baichuan Intelligent Technology e Zhipu AI l’autorizzazione a rendere pubblici i loro modelli linguistici di intelligenza artificiale. Questo potrebbe suggerire che le autorità cinesi potrebbero non aver posto limiti all’accesso ai dati Internet cinesi, che sono distinti da quelli utilizzati globalmente.
Microsoft sostiene che la valutazione delle capacità generali dei modelli fondamentali nel compiere compiti a livello umano sia essenziale per lo sviluppo e l’applicazione dell’AGI. L’articolo di AGIEval critica i tradizionali parametri di riferimento, basati su set di dati artificiali, sostenendo che potrebbero non rappresentare accuratamente le abilità umane. Questo potrebbe indicare che Baichuan 2-13B è più vicino all’AGI che a ChatGPT, se effettivamente lo fosse, sarebbe un risultato significativo.
Tuttavia, va notato che, come tutti i benchmark, AGIEval si basa su un determinato set di dati per la valutazione. Oltre a AGIEval, se consideriamo la capacità di codifica di Baichuan 2 e le abilità di risoluzione dei problemi matematici, è indietro rispetto a ChatGPT. Pertanto, dobbiamo chiederci se AGIEval sia davvero il criterio definitivo per giudicare l’AGI.
Di recente, anche Baidu ha annunciato che Ernie 3.5, l’ultima versione del suo modello Ernie AI, ha superato ChatGPT in termini di abilità complessive e ha superato GPT-4 in diverse funzionalità cinesi. Baidu ha fatto riferimento a un test condotto dal quotidiano statale China Science Daily, che includeva set di dati come AGIEval e C-Eval.
Va notato che all’inizio di quest’anno, Microsoft Orca aveva affermato di avere prestazioni superiori in AGIEval. Nel documento di ricerca di Orca si menziona esplicitamente che i parametri di valutazione come AGIEval, basati su test standardizzati come GRE, SAT, LSAT, ecc., offrono quadri di valutazione più robusti. Tuttavia, un’analisi più approfondita dei dati di Orca rivela che anche questo modello è stato addestrato su dati cinesi.
La promozione di Orca ruotava intorno a AGIEval, e in generale, la maggior parte dei modelli linguistici che si comportano bene in AGIEval hanno accesso a dati cinesi, il che può conferire loro un vantaggio. Questo solleva preoccupazioni riguardo all’equità nei confronti di altri modelli disponibili.
In definitiva, le prestazioni dei modelli di intelligenza artificiale in benchmark come AGIEval non sono un indicatore esclusivo del progresso verso l’AGI. Sebbene modelli come Baichuan 2-13B abbiano ottenuto punteggi impressionanti, spesso il vantaggio deriva dai dati di addestramento, in particolare dall’accesso a specifici contenuti Internet cinesi.
Sebbene AGIEval si concentri sulle attività reali, è fondamentale riconoscere che una valutazione completa dell’AGI dovrebbe considerare una gamma più ampia di abilità. Possiamo veramente affermare che un modello linguistico superiore nei test come SAT, LSAT o qualsiasi altro esame sia più vicino all’AGI?