Perché la matematica a livello di scuola elementare è così difficile per l’intelligenza artificiale?
OpenAI ha rilasciato un sistema di intelligenza artificiale in grado di completare problemi di matematica a livello di scuola elementare
OpenAI ha sviluppato un sistema di intelligenza artificiale in grado di completare problemi di matematica a livello di scuola elementare. Il sistema è stato in grado di risolvere quasi tanti problemi quanti ne ha un campione di 9-12 anni (90 per cento). I bambini hanno ottenuto il 60% in un test dal set di dati di ricerca, mentre il sistema di intelligenza artificiale ha ottenuto il 55%.Perché è difficile per i modelli risolvere problemi di matematica
La ricerca intitolata ” Formazione dei verificatori per risolvere i problemi con le parole matematiche ” afferma che quando è necessario un ragionamento matematico in più fasi, anche i modelli più grandi non riescono a fornire. Una grande sfida è che il ragionamento matematico viene fornito con un’elevata sensibilità agli errori individuali. I modelli autoregressivi non hanno alcun metodo per correggere i propri errori quando escono con una soluzione.
La ricerca aggiunge che le soluzioni che “mancano fuori rotta” non possono essere recuperate. Anche l’utilizzo di metodi generativi e l’estrapolazione dalle tendenze attuali non è fattibile in quanto richiederà un conteggio dei parametri esorbitante.
Cosa suggerisce OpenAI
Propone verificatori di formazione per valutare la correttezza delle soluzioni generate dal modello.
I ricercatori hanno campionato un numero fisso di soluzioni candidate al momento del test. Hanno quindi selezionato la soluzione classificata più in alto dal verificatore.
Ha rilasciato GSM8K, che è un set di dati di 8,5K problemi di alta qualità a livello di matematica della scuola elementare. Durante la creazione del set di dati , l’attenzione si è concentrata su alta qualità, elevata diversità e difficoltà moderata. (I problemi non richiedevano alcun concetto oltre l’antica Algebra). La maggior parte dei problemi può essere risolta senza definire esplicitamente una variabile.
Ogni problema richiede da due a otto passaggi per essere risolto. Possono essere risolti eseguendo una sequenza di calcoli elementari utilizzando operazioni aritmetiche di base.
Le soluzioni sono scritte in linguaggio naturale. Questo lo rende più facilmente interpretabile dall’uomo. Il team ha incaricato gli autori di problemi di spiegare il più possibile il loro lavoro. Gli è stato permesso di scrivere soluzioni seguendo i propri stili linguistici.
Messa a punto e verifica
I ricercatori lavorano con due metodi: messa a punto e verifica. Per entrambi i metodi, i ricercatori hanno utilizzato modelli della famiglia GPT-3 come inizializzazione, concentrandosi principalmente sulle dimensioni del modello 175B e 6B.
Nella messa a punto, ha lo stesso obiettivo di modellazione del linguaggio del pre-addestramento generativo in GPT-3. I ricercatori valutano le prestazioni al momento del test campionando in modo automatico una singola soluzione a bassa temperatura e verificando se la risposta finale è corretta.
La verifica consiste nel campionamento di più soluzioni ad alta temperatura, assegnando a ciascuna soluzione un punteggio e quindi emettendo la soluzione con il punteggio più alto. I verificatori sono addestrati a valutare la correttezza delle soluzioni e il segnale di addestramento è determinato dal fatto che la soluzione abbia raggiunto o meno la risposta finale corretta.Conformità antitrust nel settore dell’IA: mito o realtà?
I modelli non riescono a eseguire calcoli con precisione abbastanza spesso. Il team ha addestrato tutti i modelli a utilizzare una calcolatrice iniettando annotazioni di calcolo nel set di addestramento per risolvere questo problema. Per risolvere un nuovo problema al momento del test, il team di ricerca ha generato 100 soluzioni candidate. Quindi, hanno selezionato la soluzione classificata più in alto dal verificatore.
Cosa ha scoperto OpenAI
I ricercatori di OpenAI hanno riscontrato un forte aumento delle prestazioni dalla verifica quando il set di dati è sufficientemente grande. Con piccoli set di dati, il team rileva che i verificatori non apprendono proprietà aggiuntive del ragionamento matematico ma si sovrappongono memorizzando le risposte finali nel set di addestramento.