La startup di Singapore, Sapient Intelligence, ha recentemente presentato un’architettura innovativa che promette di superare le limitazioni degli attuali modelli di linguaggio di grandi dimensioni (LLM). Il modello proposto, denominato Hierarchical Reasoning Model (HRM), è progettato per affrontare compiti complessi di ragionamento con una velocità superiore di 100 volte rispetto agli LLM tradizionali, utilizzando solo 1.000 esempi di addestramento.
I modelli LLM attuali spesso utilizzano il metodo del “chain-of-thought” (CoT), che suddivide i problemi complessi in passaggi intermedi, permettendo al modello di “pensare ad alta voce” mentre lavora verso una soluzione. Tuttavia, questo approccio presenta delle limitazioni intrinseche: dipende da decomposizioni definite dall’uomo, dove un singolo errore o un ordine sbagliato dei passaggi può compromettere l’intero processo di ragionamento. Inoltre, la generazione esplicita di linguaggio lega il ragionamento del modello al livello dei token, spesso richiedendo enormi quantità di dati di addestramento e producendo risposte lunghe e lente.
Per superare queste sfide, i ricercatori di Sapient Intelligence hanno preso ispirazione dal funzionamento del cervello umano, che utilizza sistemi distinti per la pianificazione lenta e deliberata e per il calcolo rapido e intuitivo. Il HRM è composto da due moduli ricorrenti accoppiati: un modulo ad alto livello (H) per la pianificazione astratta e lenta, e un modulo a basso livello (L) per i calcoli rapidi e dettagliati. Questa struttura consente un processo denominato “convergenza gerarchica”, in cui il modulo L affronta una parte del problema, eseguendo più passaggi fino a raggiungere una soluzione locale stabile. A quel punto, il modulo H prende questo risultato, aggiorna la strategia complessiva e fornisce al modulo L un nuovo sottoproblema affinato. Questo ciclo continuo permette al sistema di eseguire una lunga sequenza di passaggi di ragionamento con un’architettura di modello snella che non soffre del problema dei gradienti che svaniscono.
I test hanno dimostrato che il HRM è in grado di risolvere problemi che risultano inaccessibili anche per gli LLM avanzati. Ad esempio, nei benchmark “Sudoku-Extreme” e “Maze-Hard”, i modelli CoT all’avanguardia hanno fallito completamente, ottenendo una precisione dello 0%. Al contrario, il HRM ha raggiunto una precisione quasi perfetta dopo essere stato addestrato con solo 1.000 esempi per ciascun compito. Inoltre, nel benchmark ARC-AGI, un test di ragionamento astratto e generalizzazione, il HRM con 27 milioni di parametri ha ottenuto un punteggio del 40,3%, superando modelli CoT molto più grandi come o3-mini-high (34,5%) e Claude 3.7 Sonnet (21,2%).
Le implicazioni di questa architettura sono significative, soprattutto in scenari aziendali dove i dati sono scarsi e le risorse computazionali limitate. Il HRM offre prestazioni superiori con minori possibilità di errori e una maggiore velocità di esecuzione, grazie alla sua capacità di elaborare compiti in parallelo. Ciò potrebbe tradursi in un’accelerazione dei tempi di completamento dei compiti fino a 100 volte, riducendo la latenza e consentendo l’esecuzione di ragionamenti complessi anche su dispositivi edge. Inoltre, il risparmio sui costi è notevole: l’addestramento del modello per il Sudoku a livello professionale richiede circa due ore di GPU, e per il complesso benchmark ARC-AGI, tra 50 e 200 ore di GPU, una frazione delle risorse necessarie per i modelli di fondazione di grandi dimensioni.
Sapient Intelligence sta già lavorando per evolvere il HRM da un risolutore specializzato di problemi a un modulo di ragionamento più generale. Sono in fase di sviluppo modelli ispirati al cervello basati sul HRM, con risultati promettenti in ambiti come la sanità, la previsione climatica e la robotica. Questi modelli di nuova generazione differiranno significativamente dai sistemi basati su testo odierni, includendo capacità di auto-correzione e adattamento dinamico