Infine, un modello linguistico che fa matematica
Minerva si basa sul Pathways Language Model (PaLM) con una formazione estesa su un set di dati da 118 GB di articoli scientifici da arXiv e 38,5 miliardi di token di dati matematici derivati da pagine Web.
Quest’anno sono entrati in scena numerosi modelli linguistici di grandi dimensioni, con applicazioni che vanno dalla generazione automatizzata di codice alla generazione di testo e immagini. Tuttavia, questi LLM non sono stati all’altezza sul fronte del ragionamento quantitativo.
Google ha infranto questa barriera con il suo ultimo modello linguistico, Minerva. Prende il nome dalla dea romana della saggezza, è addestrato su un set di dati scientifici e matematici di alta qualità.
Minerva si basa sul Pathways Language Model (PaLM) con una formazione estesa su un set di dati da 118 GB di articoli scientifici da arXiv e 38,5 miliardi di token di dati matematici derivati da pagine Web. Il modello elabora domande scientifiche e matematiche formate in linguaggio naturale e genera una soluzione passo passo con l’aiuto di Latex Notations, MathJax o altri formati di composizione matematica.
Il modello è sviluppato in 3 forme di base: modelli pre-addestrati con parametri 8B, 62B e 540B. Oltre a un’estesa formazione preliminare sui dati matematici, Minerva incorpora anche tecniche di suggerimento e valutazione come catena di pensieri , scratchpad e votazione a maggioranza per fornire un processo di valutazione passo dopo passo e scegliere il risultato ottimale da un campione di più soluzioni.
benchmark STEM
Le capacità di ragionamento quantitativo di Minerva sono state testate su benchmark STEM , lo standard di valutazione nel sistema educativo degli Stati Uniti . Il livello di difficoltà varia dal livello della scuola elementare al corso di laurea.
MATEMATICA : un set di dati di 12.000 problemi di matematica delle scuole medie e superiori scritti in formato LATEX. Ai modelli viene richiesto un prompt fisso a quattro colpi composto da quattro esempi casuali i cui bersagli della verità sul terreno non sono troppo lunghi.
MMLU-STEM : incentrato su STEM, questo sottoinsieme del benchmark Massive Multitask Language Understanding copre argomenti come ingegneria, chimica, matematica e fisica a livello di scuola superiore e college. In questo test, viene utilizzata una combinazione di cinque colpi, catena di pensieri e una versione a scelta multipla del prompt MATH per affrontare vari problemi.
GSM8k : problemi di matematica a livello di scuola elementare che coinvolgono operazioni aritmetiche di base che dovrebbero essere tutte risolvibili da uno studente di scuola media di talento. Il modello viene valutato utilizzando il prompt della catena di pensieri. Tuttavia, in questo test, non vengono utilizzati strumenti esterni per i calcoli.
Corsi OCWC: una serie di problemi che coprono argomenti STEM che vanno da equazioni differenziali, chimica dello stato solido, astronomia, relatività speciale, ecc., a livello universitario. Il set di dati è stato creato utilizzando materiali didattici disponibili pubblicamente offerti dal MIT (OpenCourseWare). Sono stati inclusi solo problemi con soluzioni verificabili automaticamente (numerica o verificabile simbolicamente tramite SymPy ) da vari corsi.
Minerva ha sovraperformato i risultati SOTA con un ampio margine.
Il modello Minerva è stato anche testato all’esame nazionale di matematica in Polonia nel 2021. Mentre il modello di base 62B ha raggiunto il 57%, che era la media nazionale quell’anno, la variante di base 540B ha raggiunto il 65%.
Qual è il problema?
Il ragionamento quantitativo è la capacità di utilizzare la matematica e le informazioni per risolvere problemi del mondo reale. GPT-3 di OpenAI ha potuto completare solo dal 2,9% al 6,9% dei problemi da un set di dati di oltre 12.500 nell’anno 2021. Successivamente, hanno lanciato GPT-f . Il dimostratore automatizzato e l’assistente di prova per il linguaggio di formalizzazione Metamath è stato il primo sistema basato sull’apprendimento automatico che ha fornito prove adottate da una comunità matematica formale.
Guillaume Lample e François Charton di Facebook AI Research hanno creato una rete neurale addestrata in grado di ragionare simbolico per equazioni differenziali e integrali.
Minerva è addestrata su un ampio set di dati che combina la comprensione del linguaggio naturale con l’uso corretto del linguaggio matematico formale (equazioni e diagrammi). Il modello stabilisce una nuova linea di base per i benchmark di ragionamento quantitativo aumentando la qualità dei dati e le dimensioni del modello.
I ricercatori hanno affermato che una delle applicazioni dirette potrebbe essere la creazione di un tutor di matematica basato sull’intelligenza artificiale accessibile e conveniente.
Non un modello perfetto
Nonostante l’addestramento su un ampio set di dati di dati matematici, Minerva è tutt’altro che un perfetto risolutore di problemi. Analizzando il campione di problemi che il modello ha sbagliato, è stato trovato uno schema.
Circa la metà dei problemi erano errori di calcolo, mentre l’altra metà erano passaggi risolutivi che non seguivano una catena logica di pensiero.
Sebbene il modello sia arrivato alla risposta giusta, non ha utilizzato il ragionamento corretto. Tali casi sono stati definiti “falsi positivi”. Tuttavia, il tasso di falsi positivi era relativamente basso.
Il modello non ha accesso a strumenti esterni come una calcolatrice o un interprete Python , limitando la sua capacità di gestire attività che richiedono calcoli numerici complicati. Guarda la demo di Minerva explorer .