Matematica AI: MathGPT di Upstage supera GPT-4

Upstage ha recentemente annunciato lo sviluppo di un avanzato “modello linguistico specifico per la matematica”, considerato il migliore nel suo genere. Il modello, denominato “MathGPT”, è stato sviluppato in collaborazione con Masspresso e KT, gestori della piattaforma di apprendimento AI “Qanda”. Questo nuovo modello LLM di grandi dimensioni, specializzato in matematica, ha superato in alcuni aspetti le prestazioni dei modelli Microsoft (MS) e “GPT-4” di OpenAI.

Il progetto MathGPT è stato avviato nell’ambito di una partnership strategica con KT a novembre dell’anno scorso. Upstage ha potuto accedere ai dati matematici specializzati di alta qualità di Qanda, affinando il modello linguistico basato sul linguaggio naturale per risolvere complessi problemi matematici mediante ragionamento logico e programmazione.

Il risultato è un modello GPT matematico con 13 miliardi di parametri (13B), che ha superato il modello “ToRA 13B” di MS in test benchmark rilevanti come “MATH” e “GSM8K”. Questo rappresenta un record nel campo dei modelli sotto i 13B.

I test benchmark MATH e GSM8K sono standard nel valutare le capacità matematiche dei modelli linguistici. MATH consiste in 12.500 problemi matematici complessi, valorizzando la comprensione di concetti avanzati e il pensiero astratto. GSM8K, invece, comprende 8.500 operazioni aritmetiche di livello elementare, valutando l’accuratezza e la semplicità nella soluzione di problemi.

Upstage ha confrontato MathGPT con Torah 13B, ChatGPT e GPT-4, pubblicando i risultati dei benchmark. Nel test MATH, MathGPT ha ottenuto il punteggio più alto con un’accuratezza di 0,488, seguito da Torah 13B e GPT-4. Nel test GSM8K, ChatGPT ha ottenuto il punteggio più alto, seguito da MathGPT e Torah 13B.

Il confronto è stato facilitato dalla disponibilità di dati da un articolo pubblicato da MS, con Torah 13B riconosciuto come un modello SoTA (State of the Art) della sua categoria.

Upstage ha enfatizzato come il successo nei test di benchmark rappresenti un traguardo senza precedenti nel mondo della matematica. Questo risultato è frutto della collaborazione con KT, dell’expertise specifico in matematica di Qanda e della tecnologia di modellazione avanzata di Upstage, che ha creato il LLM numero 1 al mondo con il proprio modello “SOLAR”.

In futuro, Upstage punta a espandersi in settori come finanza, distribuzione, assistenza sanitaria e intrattenimento, portando in primo piano il modello SOLAR, e ad entrare attivamente nei mercati internazionali.

Kim Seong-hoon, CEO di Upstage, ha sottolineato l’importanza di sviluppare un modello linguistico specifico per la matematica, mentre Lee Yong-jae, CEO di Qanda, ha parlato dell’intenzione di migliorare ulteriormente l’accuratezza e le prestazioni del modello, integrandolo con interfacce di apprendimento per creare tutor e insegnanti assistenti AI.

Recentemente, Upstage ha guadagnato riconoscimenti significativi, raggiungendo il primo posto nella classifica LLM di Solar su Hugging Face e dominando le classifiche nazionali e internazionali con i suoi modelli basati su Solar.

Matematica AI: MathGPT di Upstage supera GPT-4

DiFantasy

Di Fantasy

Articoli correlati

TUMIX: quando gli agenti collaborano per rendere l’AI più precisa e meno costosa

OpenAI svela i suoi strumenti “interni” e inquieta il mercato dei software aziendali

Splendor Search: come Splendor Labs vuole costruire l’Internet dell’AI

Ultimi Post

TUMIX: quando gli agenti collaborano per rendere l’AI più precisa e meno costosa

OpenAI svela i suoi strumenti “interni” e inquieta il mercato dei software aziendali

Splendor Search: come Splendor Labs vuole costruire l’Internet dell’AI

Quando un’AI sa di essere testata: Claude Sonnet 4.5 e la consapevolezza dell’esperimento