Facciamo alcune riflessioni riguardo alle capacità del chatbot AI ChatGPT in diversi ambiti. Mentre questo modello può eccellere in attività come la scrittura di script, la spiegazione di argomenti complessi, il debug e la comprensione di codice, sembra che incontri alcune difficoltà nel campo della matematica.
Recentemente, l’Università di Stanford e l’Università della California, Berkeley, hanno presentato un documento di ricerca interessante. Nel documento si afferma che i modelli linguistici di grandi dimensioni (LLM) riescono a eseguire operazioni matematiche semplici con numeri di piccole dimensioni. Tuttavia, quando si tratta di numeri più grandi, questi modelli mostrano difficoltà, indicando che potrebbero non aver appreso le regole sottostanti necessarie per eseguire operazioni aritmetiche più complesse. Il documento sottolinea che anche GPT-4, nonostante i miglioramenti apportati al set di dati MATHS, presenta ancora errori principalmente legati a problemi di calcolo e aritmetica.
In risposta a questa sfida, la società concorrente Google ha intrapreso un percorso per migliorare le capacità di ragionamento algoritmico dei modelli simili a ChatGPT. Il loro studio, intitolato “Insegnare modelli linguistici a ragionare algoritmicamente”, adotta l’approccio dell’apprendimento in contesto e introduce un nuovo algoritmo di ragionamento. Questo approccio mira a insegnare nuove abilità passo dopo passo anziché sovraccaricare il modello con istruzioni iniziali. Si basa sulla capacità del modello di eseguire attività dopo aver osservato esempi nel contesto del modello stesso.
Un ulteriore contributo di questo studio è l’introduzione di una tecnica di suggerimento per migliorare la capacità di generalizzazione dei modelli linguistici su problemi matematici più complessi. Questa tecnica si basa su approcci logici come “scratchpad” e “catena di pensiero”. Infine, il lavoro dimostra che un modello può eseguire algoritmi in modo affidabile su esempi fuori distribuzione con i giusti suggerimenti.
Tornando a ChatGPT, sembra che il modello stia mostrando una regressione nelle sue prestazioni, soprattutto in matematica. Lo stesso studio ha indicato che il chatbot sta peggiorando rispetto alle sue performance di inizio marzo. I ricercatori attribuiscono questo peggioramento a un fenomeno noto come “deriva” nell’intelligenza artificiale, dove i tentativi di migliorare una parte del modello possono portare al peggioramento di altre parti.
Per monitorare queste prestazioni, i ricercatori hanno condotto un esperimento in cui hanno testato ChatGPT con 1.000 numeri diversi. A marzo, la versione GPT-4 a pagamento è stata in grado di identificare con precisione se l’84% di questi numeri fossero primi o meno. A giugno, questa percentuale si è ridotta al 51%.
Oltre agli errori nelle risposte, ChatGPT ha anche mostrato difficoltà nel spiegare il suo ragionamento ai ricercatori. Inizialmente, il chatbot era in grado di presentare la sua “catena di pensiero”, ma a giugno ha smesso di farlo.
Fortunatamente, l’approccio di apprendimento in contesto presentato dal recente studio di Google sembra affrontare questi problemi. Queste scoperte suggeriscono che esplorare contesti più ampi e fornire spiegazioni più dettagliate potrebbe essere una direzione preziosa per la ricerca futura.
Wolfram Research, un pioniere nell’incorporazione della tecnologia nell’educazione matematica, ha collaborato con OpenAI, l’azienda madre di ChatGPT. Insieme, hanno sviluppato il plugin Wolfram + ChatGPT per migliorare le capacità matematiche nei modelli di intelligenza artificiale. Questo plugin non solo risolve i calcoli passo dopo passo, ma può anche visualizzarli in forma grafica su richiesta. Inoltre, può tradurre domande in linguaggio naturale in equazioni matematiche comprensibili, sfruttando la tecnologia di ChatGPT e le basi solide di Wolfram nel linguaggio di programmazione simbolica.
Mentre Wolfram sta compiendo progressi significativi con il suo plugin, i ricercatori stanno lottando con il peggioramento delle prestazioni dei modelli. Nel panorama attuale, l’approccio di apprendimento in contesto di Google sembra promettente nel migliorare le capacità di apprendimento delle intelligenze artificiali, rendendole studenti al di sopra della media.