Recenti studi condotti da ricercatori della National University of Singapore, della Tsinghua University in Cina e di Salesforce hanno evidenziato una sfida significativa nei modelli linguistici di grandi dimensioni (LLM) come GPT-4, o1, Gemini 2.5 Pro e DeepSeeker-R1: la loro tendenza a risolvere problemi complessi attraverso intuizioni improvvise, simili al “momento Aha!” umano. Sebbene questi momenti possano sembrare brillanti, la loro imprevedibilità e incoerenza limitano l’affidabilità e l’applicabilità pratica dell’IA in contesti complessi.
Per superare queste limitazioni, i ricercatori hanno proposto un approccio innovativo che mira a sviluppare capacità di ragionamento sistematico nei modelli. Questo metodo si basa su tre fasi principali:
- Apprendimento delle meta-competenze: i modelli vengono addestrati a riconoscere e applicare tre forme fondamentali di ragionamento: deduzione (derivare conclusioni certe da premesse), induzione (generalizzare da osservazioni specifiche) e abduzione (formulare la causa più probabile di un fenomeno osservato).
- Fusione dello spazio dei parametri: le competenze acquisite vengono integrate in un unico modello coeso, migliorando la coerenza e l’efficacia del ragionamento.
- Apprendimento per rinforzo specifico del dominio (Domain-RL-Meta): il modello viene ulteriormente affinato attraverso un apprendimento per rinforzo mirato a compiti specifici, come matematica, programmazione e scienze, migliorando le prestazioni in questi ambiti.
I risultati ottenuti sono promettenti: l’approccio ha migliorato la precisione dei modelli di oltre il 10% rispetto ai metodi tradizionali basati su istruzioni. L’aggiunta dell’apprendimento per rinforzo specifico del dominio ha ulteriormente incrementato le prestazioni, con un guadagno medio del 2% nei benchmark di matematica, codifica e scienze. Questi miglioramenti suggeriscono che l’allineamento esplicito delle capacità di ragionamento nei modelli linguistici di grandi dimensioni può offrire una base scalabile e affidabile per il ragionamento complesso.