Galactica: la risposta di Meta a GPT-3 per la scienza
Meta rilascia Galactica, un grande modello linguistico per la ricerca scientifica
Due anni fa, OpenAI ha rilasciato il modello GPT-3 addestrato su 175 miliardi di parametri. Da allora, i grandi modelli linguistici (LLM) sono stati di gran moda.
Mercoledì, MetaAI e Papers with Code hanno annunciato il rilascio di Galactica, un modello di linguaggio di grandi dimensioni open source addestrato sulla conoscenza scientifica, con 120 miliardi di parametri. Lo strumento generativo di intelligenza artificiale aiuterà i ricercatori accademici producendo ampie revisioni della letteratura, generando articoli Wiki su qualsiasi argomento, accedendo agli appunti delle lezioni su testi scientifici, producendo risposte a domande, risolvendo complesse soluzioni matematiche, annotando molecole e proteine e altro ancora.
Galactica è addestrato su un gran numero di articoli scientifici, materiali di ricerca, basi di conoscenza e numerose altre fonti, inclusi testi scientifici e modalità come proteine e composti.
Qualsiasi output può essere generato sulla base del vasto database di Galactica semplicemente inserendo il prompt su galactica.org .
Il nuovo modello è progettato per affrontare il problema del sovraccarico di informazioni quando si accede alle informazioni scientifiche attraverso i motori di ricerca, dove non esiste un’organizzazione adeguata della conoscenza scientifica. In confronto, Galactica è costruito con la missione di organizzare la scienza, ovvero un modello in grado di immagazzinare, combinare e ragionare sulla conoscenza scientifica.
La ricerca pubblicata mostra che Galactica supera altri modelli su diverse metriche:
(i) Batte l’ultimo GPT-3 del 68,2% contro il 49,0% su sonde di conoscenze tecniche come le equazioni LaTeX.
(ii) Nella misura del ragionamento, supera anche Chinchilla su MMLU matematico con il 41,3% contro il 35,7% di Chinchilla e PaLm 540B su MATH con un punteggio del 20,4% contro l’8,8%.
(iii) È anche risultato essere migliore di BLOOM e OPT-175B su BIG-bench nonostante non sia stato addestrato sul corpus generale.
Il documento può essere consultato qui .
Tuttavia, la comunità AI è stata rapida nell’affrontare i problemi relativi a questo modello. David Chapman si è rivolto a Twitter per spiegare quanto fosse pessimo l’output generato basandosi su alcuni esempi tratti dal forum di discussione di Hacker News:
Ma, al di là dei problemi con il modello, la comunità scientifica ha anche elogiato gli sforzi di Meta nella raccolta e nell’indicizzazione di lavori scientifici, database e basi di codice.
Scoperte del modello di linguaggio di grandi dimensioni
Oltre a GPT-3 e Galactica, LLM come YaLM vengono addestrati su 100 miliardi di parametri, mentre modelli come BLOOM e PaLM vengono addestrati rispettivamente su 176 miliardi e 540 miliardi di parametri. Abbiamo anche visto l’ascesa di modelli di linguaggio proteico che risolvono il decennale problema del ripiegamento proteico e, nello sviluppo più recente, il modello GenSLM , che è in grado di prevedere le varianti Covid.
Inoltre, siamo in un’epoca di “text-to-anything”, che viene addestrato su enormi modelli linguistici e sviluppato da aziende come OpenAI, Microsoft, Google, ecc. Alla lunga lista, ora possiamo aggiungere “text-to- scienza-ricerca’ come il nuovo strumento di intelligenza artificiale che interrompe i processi esistenti di ricerca scientifica e pubblicazione.