La matematica è il fondamento di innumerevoli scienze, che ci consente di modellare cose come orbite planetarie, movimento atomico, frequenze dei segnali, ripiegamento delle proteine ​​e altro ancora. Inoltre, è un valido banco di prova per la capacità di risolvere i problemi, perché richiede che i risolutori di problemi analizzino una sfida, scelgano buoni metodi e li concatenino per produrre una risposta.

È rivelatore, quindi, che per quanto sofisticati come i modelli di apprendimento automatico siano oggi, anche i modelli all’avanguardia fanno fatica a rispondere correttamente alla maggior parte dei problemi di matematica. Un nuovo studio pubblicato dai ricercatori dell’Università della California, Berkeley, rileva che i modelli di linguaggio di grandi dimensioni, tra cui GPT-3 di OpenAI, possono completare solo il 2,9% -6,9% dei problemi da un set di dati di oltre 12.500. I coautori ritengono che saranno probabilmente necessari nuovi progressi algoritmici per fornire ai modelli capacità di problem solving più forti.

Ricerche precedenti hanno dimostrato l’utilità dell’IA che ha una solida conoscenza dei concetti matematici. Ad esempio, OpenAI ha recentemente introdotto GPT-f, un prover automatizzato e un assistente di prova per il linguaggio di formalizzazione Metamath. GPT-f ha trovato nuove prove brevi che sono state accettate nella libreria Metamath principale, la prima volta che un sistema basato sull’apprendimento automatico ha fornito prove che sono state adottate da una comunità matematica formale. Da parte sua, Facebook afferma anche di aver sperimentato con successo algoritmi di intelligenza artificiale per la risoluzione di matematica. In un post sul blog lo scorso gennaio, i ricercatori dell’azienda hanno affermato di aver insegnato a un modello per visualizzare complesse equazioni matematiche “come una sorta di linguaggio e quindi [trattare] le soluzioni come un problema di traduzione”.

“Mentre la maggior parte delle altre attività basate su testo sono già quasi risolte da enormi modelli linguistici, la matematica è notevolmente diversa. Abbiamo dimostrato che l’accuratezza sta lentamente aumentando e, se le tendenze continuano, la comunità dovrà scoprire scoperte concettuali e algoritmiche per ottenere ottime prestazioni in matematica “, hanno scritto i coautori. “Data l’ampia portata e applicabilità della matematica, la risoluzione di set di dati matematici con l’apprendimento automatico avrebbe un profondo significato pratico e intellettuale”.

Per misurare la capacità di risoluzione dei problemi di modelli linguistici ampi e generici, i ricercatori hanno creato un set di dati chiamato MATH, che consiste di 12.500 problemi presi dalle competizioni di matematica delle scuole superiori. Dato un problema di MATH, i modelli linguistici devono generare una sequenza che riveli la risposta finale.


I problemi in MATH sono etichettati in base alla difficoltà da 1 a 5 e abbracciano sette argomenti, tra cui geometria, algebra, calcolo, statistica, algebra lineare e teoria dei numeri. Sono inoltre dotati di soluzioni passo passo in modo che i modelli linguistici possano imparare a rispondere a nuove domande che non hanno mai visto prima.

I modelli di formazione sui fondamenti della matematica hanno richiesto ai ricercatori di creare un set di dati separato con centinaia di migliaia di soluzioni a problemi matematici comuni. Questo secondo set di dati, Auxiliary Mathematics Problems and Solutions (AMPS), comprende oltre 100.000 problemi della Khan Academy con soluzioni e oltre 5 milioni di problemi generati utilizzando gli script di Mathematica basati su 100 moduli progettati a mano. In totale, AMPS contiene 23 GB di contenuti.

Come spiegano i ricercatori, le soluzioni passo passo nei set di dati consentono ai modelli di linguaggio di utilizzare uno “spazio zero” proprio come farebbe un matematico umano. Anziché dover arrivare subito alla risposta corretta, i modelli possono prima “mostrare il loro lavoro” in soluzioni parziali che fanno un passo verso la risposta giusta.

Anche con le soluzioni, i coautori hanno scoperto che la precisione è rimasta bassa per i modelli di linguaggio di grandi dimensioni che hanno confrontato: GPT-3 e GPT-2 , il predecessore di GPT-3. Il fatto che i modelli generassero le proprie soluzioni prima di produrre una risposta in realtà diminuiva l’ accuratezza perché, sebbene molti dei passaggi fossero correlati alla domanda, erano illogici. Inoltre, aumentare semplicemente la quantità di tempo di addestramento e il numero di parametri nei modelli, che a volte migliora le prestazioni, si è rivelato poco pratico. (Nell’apprendimento automatico, i parametri sono variabili i cui valori controllano il processo di apprendimento.)

Stando così le cose, i ricercatori hanno dimostrato che le soluzioni passo passo forniscono ancora vantaggi sotto forma di prestazioni migliorate. In particolare, fornire modelli con soluzioni al momento dell’addestramento ha aumentato la precisione in modo sostanziale, con la pre-formazione su AMPS che ne ha aumentato la precisione di circa il 25%, equivalente a un aumento di 15 volte delle dimensioni del modello.

“Nonostante queste basse precisioni, i modelli possiedono chiaramente alcune conoscenze matematiche: raggiungono fino al 15% di accuratezza al livello di difficoltà più semplice e sono in grado di generare soluzioni dettagliate coerenti e in tema anche se errate”, hanno scritto i coautori. “Il training dei modelli sulle soluzioni aumenta la precisione relativa del 10% rispetto alla formazione diretta sulle domande e sulle risposte.”

I ricercatori hanno rilasciato MATH e AMPS in open source , insieme ai set di dati matematici esistenti come DeepMind , per stimolare ulteriori ricerche in questa direzione.

Di ihal