Qualche mese fa, AIM ha messoalla prova questo modello con uno degli esami più difficili in India, l’UPSC. ChatGPT, basato su GPT-4, è riuscito a superare l’esame con un punteggio di 162,76. Questo è stato un risultato notevole, che ha dimostrato la capacità del modello di fornire risposte accurate. Tuttavia, si è notato che modificando leggermente le domande, si è riusciti a indurre il modello a generare risposte più precise. È importante notare che, in questo esperimento, sono state considerate solo le prime risposte del bot.
Recentemente, è emerso un documento del MIT intitolato “Esplorazione del curriculum di matematica ed EECS del MIT utilizzando modelli di linguaggio di grandi dimensioni” che ha attirato molta attenzione. Il documento affermava che GPT-4 aveva raggiunto un punteggio del 100% nel curriculum di EECS del MIT utilizzando un set di dati di 4.550 domande e relative soluzioni. Inizialmente, sembrava un risultato straordinario, ma successivamente alcuni ricercatori del MIT hanno deciso di approfondire ulteriormente.
Raunak Chowdhari, Neil Deshmukh e David Koplow, tutti esperti del dipartimento di EECS del MIT, hanno condotto un’indagine approfondita sul documento e sono giunti a una conclusione deludente. Hanno scoperto che le domande presenti nel documento erano incomplete, rendendo impossibile per GPT-4 trovare le risposte corrette, come erroneamente dichiarato nel documento stesso.
Inoltre, i ricercatori responsabili del documento hanno utilizzato GPT-4 per valutare e valutare le risposte generate dal modello stesso. Hanno addirittura continuato a richiedere ripetutamente l’intervento di GPT-4 fino a quando non è stata ottenuta la risposta corretta. Quando le risposte non erano corrette, fornivano al modello le risposte complete presenti nel set di dati caricato, facendo sì che il modello sembrasse averle generate autonomamente. Quando i tre ricercatori hanno provato a testare GPT-4 “zero-shot” utilizzando il set di dati, hanno ottenuto solo una precisione del 62,5%, un risultato significativamente inferiore al 90% dichiarato nel documento.
Il documento è stato redatto da 15 autori, ma è inaccettabile che abbiano respinto le critiche affermando che il documento non era sottoposto a revisione paritaria. I problemi relativi al set di dati e alla metodologia avrebbero potuto essere individuati e corretti da ciascuno dei ricercatori coinvolti. Appare, invece, che pubblicare informazioni false per ottenere attenzione sia stato un “errore” intenzionale.
Inoltre, OpenAI non è estranea alla pubblicazione di articoli di bassa qualità. In passato, i ricercatori hanno criticato la politica di OpenAI, che prevedeva la mancanza di trasparenza e di dettagli tecnici nel documento su GPT-4. Successivamente, è stato pubblicato un altro documento che cercava di posizionare GPT come una tecnologia generica e di valutare l’impatto di questa tecnologia sui posti di lavoro nel corso degli anni, incoraggiando tutti a utilizzarla.
Nel campo della ricerca, abbiamo assistito a una tendenza in cui tutti confrontano i propri studi con GPT-4, che ormai è considerato come un punto di riferimento fondamentale per ogni nuovo progresso tecnologico, specialmente nel campo dei modelli di linguaggio generativo.
Inoltre, l’approccio black-box adottato nel documento su GPT-4 è stato seguito da molti altri. Un utente della discussione su HackerNews relativa al documento del MIT ha affermato che l’apprendimento automatico non è più un campo scientifico, dove “chiunque può dire e fare quello che vuole e non c’è modo di dimostrare che sia sbagliato”. È diventato simile alle scienze sociali, con una ricerca non falsificabile e non riproducibile che si basa su altre ricerche non falsificabili e non riproducibili.
È importante notare che da decenni mancano metriche valide e punti di riferimento significativi per valutare i modelli di generazione del linguaggio. Di conseguenza, le persone finiscono per citare e confrontare i risultati con qualsiasi approccio o modello ritengano appropriato, risultando in una mancanza di standardizzazione delle capacità di un determinato approccio.
In questa corsa all’oro, molte ricerche nel campo degli LLM e dell’IA generativa, dopo il rilascio dei modelli GPT di OpenAI, sembrano seguire solo la tendenza e l’hype per cercare di rimanere rilevanti. Ciò porta a numerose ricerche opache, prive di basi solide o credibilità, e genera un’ondata di documenti falsi su Internet.
Questo crea sicuramente un cattivo precedente nel campo della ricerca sull’IA, mettendo in dubbio l’autenticità di molti documenti di ricerca. Ci si potrebbe chiedere: quante altre pubblicazioni online sono di bassa qualità ma non hanno subito un’indagine simile? Con l’attuale tendenza delle carte da lettere GPT-4 considerate come “verità fondamentale”, la qualità delle ricerche potrebbe ulteriormente diminuire.