È stato introdotto un nuovo metodo di valutazione per distinguere se una risposta da parte dei modelli di linguaggio di grandi dimensioni (LLM) si basa sull’inferenza o sulla semplice memorizzazione. Questo ha portato a una riflessione su quale modello sia in grado di ragionare meglio e quali siano le implicazioni per lo sviluppo dell’intelligenza artificiale generale (AGI).
Mark Tech Post ha riportato che i ricercatori di ScaleAI hanno sviluppato un nuovo benchmark chiamato “GSM1k” per valutare la capacità dei LLM nel ragionamento matematico, un aspetto cruciale nell’ambito dell’IA generale.
La valutazione delle abilità matematiche dei LLM ha mostrato alcuni problemi di “overfitting”. Questo fenomeno si verifica quando un modello, durante il processo di addestramento, memorizza le risposte anziché ragionare su di esse. Questo solleva preoccupazioni sulle vere capacità di ragionamento dei modelli.
Per affrontare questo problema, i ricercatori hanno creato il set di dati GSM1k, composto da 1.250 problemi matematici di scuola elementare. Questo set di dati è stato progettato per valutare se i modelli LLM trovano le risposte attraverso il ragionamento o la memorizzazione.
Confrontando le prestazioni dei modelli su GSM1k e un benchmark esistente chiamato GSM8k, i ricercatori hanno scoperto che alcuni modelli mostrano una significativa discrepanza tra i due. Questo suggerisce che questi modelli potrebbero basarsi più sulla memorizzazione che sull’inferenza.
Tuttavia, modelli come “Claude 3”, “GPT-4” e “Gemini Pro” hanno mostrato pochi segni di overfitting, mentre “Llama 3” di Meta ha avuto solo una piccola differenza nelle prestazioni tra i due benchmark.
Questi risultati indicano che esiste una correlazione tra la probabilità che un modello generi un esempio da GSM8k e il divario prestazionale tra GSM8k e GSM1k. Ciò suggerisce che alcuni modelli potrebbero aver memorizzato parzialmente i dati di GSM8k anziché ragionarci sopra.
Questo studio solleva importanti questioni sulla vera capacità dei LLM nel ragionamento e sottolinea la necessità di nuove tecniche e metodologie per valutare e sviluppare l’IA generale.