Sakana AI, la startup con sede a Tokyo fondata da ex scienziati di Google AI, ha recentemente presentato un’innovativa architettura di intelligenza artificiale chiamata Continuous Thought Machines (CTM). Questa nuova architettura mira a emulare il processo di pensiero umano, introducendo una dimensione temporale esplicita nel funzionamento delle reti neurali artificiali.
Tradizionalmente, le reti neurali artificiali, come quelle basate sull’architettura Transformer, elaborano gli input in modo parallelo e simultaneo, senza considerare la sequenzialità temporale. Al contrario, i CTM di Sakana introducono una sequenza temporale interna, consentendo a ciascun neurone di attivarsi in momenti specifici, basandosi su una memoria a breve termine dei suoi stati precedenti. Questa struttura permette al modello di “pensare” in modo più simile agli esseri umani, affrontando i compiti passo dopo passo e adattando la profondità e la durata del ragionamento in base alla complessità del compito stesso.
I CTM si basano su due innovazioni principali:
- Elaborazione Temporale a Livello di Neurone: Ogni neurone mantiene una memoria del suo stato precedente e utilizza questa informazione per decidere quando attivarsi successivamente.
- Sincronizzazione Neurale come Rappresentazione Latente: I neuroni si sincronizzano tra loro in modo autonomo, senza istruzioni esterne, e questa sincronizzazione viene utilizzata per modulare l’attenzione e produrre output.
Questi meccanismi consentono ai CTM di affrontare compiti complessi in modo più interpretativo e adattivo rispetto ai modelli tradizionali.
Sebbene i CTM non siano ancora ottimizzati per la produzione commerciale, hanno mostrato promettenti risultati in vari compiti, tra cui la classificazione di immagini su ImageNet-1K, la risoluzione di labirinti 2D e compiti di apprendimento rinforzato. In particolare, i CTM hanno dimostrato una calibrazione naturale delle loro previsioni, migliorando la fiducia nelle loro risposte senza necessità di regolazioni post-processo.
I CTM rappresentano un passo significativo verso l’emulazione di un’intelligenza artificiale più biologicamente plausibile. La loro capacità di adattarsi dinamicamente alla complessità del compito e di fornire una maggiore interpretabilità li rende promettenti per applicazioni in ambiti come la robotica, la medicina e la finanza. Tuttavia, per raggiungere la piena maturità, sarà necessario un ulteriore sviluppo in termini di ottimizzazione, efficienza hardware e integrazione con pipeline di inferenza standard.