Recentemente, istituzioni accademiche cinesi hanno introdotto una serie di framework di apprendimento per la costruzione di modelli di ragionamento AI, con l’obiettivo di competere con modelli avanzati come GPT-4.

La Fudan University e il Shanghai AI Laboratory hanno sviluppato un framework basato sul reinforcement learning (RL) per replicare le capacità di modelli come GPT-4. Questo framework si concentra su quattro componenti principali:

  • Inizializzazione della politica: permette al modello di sviluppare comportamenti di ragionamento simili a quelli umani, facilitando la ricerca di soluzioni a problemi complessi.
  • Progettazione delle ricompense: utilizza tecniche come la “ricompensa di processo” per verificare le fasi intermedie, rafforzando l’apprendimento e la ricerca.
  • Strategie di ricerca: impiega metodi come la ricerca Monte Carlo Tree Search (MCTS) e la ricerca a fascio per generare soluzioni di alta qualità.
  • Apprendimento iterativo: migliora continuamente le politiche del modello attraverso dati generati durante la ricerca.
  • Questo approccio mira a ridurre la dipendenza da dati curati manualmente, migliorando l’efficienza delle risorse e le capacità di ragionamento del modello.

Un altro contributo significativo proviene dalla Tsinghua University, che ha introdotto il modello “PRIME” (Process Reinforcement through IMplicit Rewards). Questo approccio utilizza il reinforcement learning con ricompense implicite per rafforzare le capacità di ragionamento del modello. Basandosi sul modello Qwen2.5-Math-7B, il team ha sviluppato “Eurus-2-7B-PRIME”, che ha superato GPT-4 in benchmark matematici come AIME, registrando un punteggio del 26,7%.

Questi sviluppi riflettono una crescente attenzione della comunità accademica cinese verso l’adozione del reinforcement learning per migliorare le capacità di ragionamento dei modelli AI. Oltre alle università, aziende come Tencent, Alibaba e DeepSeek hanno presentato modelli specializzati nel ragionamento, con DeepSeek che ha lanciato “V3”, un modello open-source di grande scala e prestazioni elevate.

Di Fantasy