Recentemente, Apple ha pubblicato un documento intitolato “Understanding the Limitations of Mathematical Reasoning in Large Language Models”, in cui mette in discussione l’efficacia dei modelli linguistici di grandi dimensioni (LLM), come quelli di OpenAI. Questo documento sostiene che gli LLM, inclusi modelli come GPT-4 e l’ultimo arrivato “o1” di OpenAI, non sono realmente in grado di ragionare in modo logico, ma piuttosto replicano passaggi già presenti nei dati di addestramento.
La ricerca, condotta da un team di sei persone presso Apple, ha introdotto un nuovo benchmark, denominato GSM-Symbolic, specificamente progettato per valutare il ragionamento matematico degli LLM. Questo nuovo benchmark è stato introdotto per migliorare l’affidabilità del test rispetto al precedente benchmark GSM8K, ritenuto non sufficientemente accurato. Secondo i risultati, mentre “o1” di OpenAI ha mostrato buone prestazioni iniziali su vari test basati sul ragionamento, le sue capacità sono calate significativamente — di circa il 30% — quando è stato introdotto l’esperimento GSM-NoOp, che aggiungeva informazioni irrilevanti alle domande.
Questa riduzione delle prestazioni suggerisce che, nonostante i progressi fatti, gli LLM non sono ancora in grado di effettuare un vero ragionamento logico. Secondo Mehrdad Farajtabar, uno degli autori dello studio, i modelli di linguaggio, anche quelli più sofisticati, seguono prevalentemente schemi e non riescono a gestire in maniera efficace situazioni in cui le domande vengono modificate anche leggermente. Questo comportamento evidenzia che gli LLM sono essenzialmente macchine per il riconoscimento di schemi e non dei veri e propri ragionatori.
Non tutti sono d’accordo con le conclusioni di Apple. Paras Chopra, un ricercatore di intelligenza artificiale, ha sostenuto che il ragionamento non consiste esclusivamente nel risolvere un problema in modo diretto, ma anche nel conoscere l’approccio per risolverlo, anche se la risposta finale potrebbe essere sbagliata. Secondo Chopra, quindi, il fatto che un LLM possa avere una risposta errata non significa che non stia ragionando.
Le critiche di Apple ai modelli di linguaggio hanno riacceso il dibattito sul reale potenziale di questi sistemi di intelligenza artificiale. Da un lato, alcuni esperti ritengono che gli LLM non siano in grado di raggiungere un vero livello di ragionamento logico e siano piuttosto strumenti limitati a una sofisticata elaborazione dei dati di addestramento. Dall’altro lato, ci sono coloro che vedono in questi modelli un potenziale passo verso un’intelligenza artificiale generale (AGI), in grado di risolvere problemi sempre più complessi e di comprendere il contesto in modo simile a un essere umano.
Nel complesso, la ricerca di Apple solleva importanti domande sul futuro degli LLM e sulla strada che resta da percorrere per sviluppare veri sistemi di intelligenza artificiale in grado di ragionare autonomamente. Mentre OpenAI difende le capacità del suo modello “o1”, sostenendo che miglioramenti nella formulazione delle domande possono ancora influenzare i risultati, Apple ribadisce che la vera inferenza logica è un obiettivo ancora lontano dall’essere raggiunto.