Nel novembre 2022, proprio prima del lancio di ChatGPT di OpenAI, Meta e Papers with Code hanno presentato al mondo Galactica, un modello linguistico open source di enormi dimensioni con ben 120 miliardi di parametri, progettato per la ricerca scientifica. Tuttavia, appena tre giorni dopo il suo debutto, Meta ha rimosso il modello a causa di problemi significativi, tra cui allucinazioni e informazioni errate.
Nonostante Galactica fosse stato allenato su un vasto set di dati composto da 48 milioni di materiale scientifico, tra cui articoli, libri di testo e dispense, gli utenti hanno presto scoperto che il modello generava risultati altamente inaffidabili e spesso privi di senso. Galactica è stato soprannominato dai critici come un “generatore casuale di stronzate” e ha persino prodotto risultati scientifici falsi, attribuendoli erroneamente a ricercatori reali. Alcuni utenti hanno notato che il modello poteva persino creare articoli Wikipedia completamente inventati, come uno che raccontava la “storia degli orsi nello spazio”.
Nonostante l’obiettivo di Galactica fosse organizzare la conoscenza scientifica da diverse fonti per affrontare il sovraccarico di informazioni nella ricerca, ogni risultato generato da questo modello veniva fornito con un avvertimento sulla sua potenziale inaffidabilità, poiché i modelli linguistici sono noti per produrre testi allucinanti.
Le preoccupazioni riguardanti la disinformazione nella ricerca scientifica sono sorte a seguito dei falsi risultati prodotti da Galactica, evidenziando il rischio che informazioni fuorvianti potrebbero infiltrarsi nelle proposte scientifiche. Tuttavia, Meta ha successivamente lavorato su modelli più precisi come LLaMA e Llama 2, mentre la comunità scientifica attende con interesse la possibile fusione di GPT-4 e il ritorno di Galactica.
Anche se Galactica ha dimostrato di non essere sufficientemente affidabile da sola, ci sono speranze che abbinarla a GPT-4 potrebbe rappresentare una soluzione valida. Un recente studio dell’Università di Stanford ha evidenziato il potenziale degli LLM, in particolare GPT-4, nel fornire un contributo prezioso al processo di feedback scientifico per i manoscritti di ricerca.
Lo studio ha dimostrato che il feedback generato da GPT-4 mostra notevoli somiglianze con il feedback dei revisori umani, soprattutto nei casi di documenti più deboli che tendono a essere respinti. Inoltre, uno studio condotto tra ricercatori nel campo dell’intelligenza artificiale e della biologia computazionale ha rivelato che molti utenti ritengono utile il feedback generato da GPT-4 e talvolta addirittura preferibile a quello di alcuni revisori umani.
Questi risultati dimostrano che gli LLM, come GPT-4, possono avere un impatto positivo sulla revisione scientifica, offrendo feedback che arricchisce l’esperienza degli esperti umani. Tuttavia, la sfida principale rimane l’affrontare il problema delle allucinazioni.
Gli LLM, per loro natura, tendono a generare allucinazioni, poiché mancano di capacità esperienziale per distinguere tra affermazioni veritiere e false e si basano esclusivamente sull’analisi linguistica. Tuttavia, alcuni esperti ritengono che le allucinazioni possano essere viste come parte del processo di apprendimento degli LLM, contribuendo a generare idee creative e fantasiose.
Inoltre, c’è ottimismo riguardo alla riduzione delle allucinazioni nei modelli LLM entro il 2025, ma la comunità scientifica deve ancora affrontare il problema in modo efficace.
In definitiva, l’obiettivo è trovare un equilibrio tra l’innovazione offerta dagli LLM come GPT-4 e la necessità di garantire l’affidabilità e la correttezza delle informazioni generate. La ricerca continua a cercare soluzioni per migliorare la qualità del lavoro degli LLM mentre si affrontano le sfide delle allucinazioni, riconoscendo che questi modelli hanno il potenziale per migliorare significativamente il campo della ricerca scientifica.