Immagine AI

L’evoluzione dell’intelligenza artificiale sta attraversando una fase di profonda trasformazione in cui l’obiettivo non è più soltanto aumentare la dimensione dei modelli, ma ottimizzare radicalmente il modo in cui questi elaborano e richiamano le informazioni. In questo contesto, DeepSeek ha recentemente presentato un framework innovativo che introduce il concetto di memoria condizionale all’interno dei modelli linguistici di grandi dimensioni, meglio noti come LLM. Questa novità arriva in un momento cruciale per l’azienda, che si prepara al lancio del suo prossimo modello di punta, DeepSeek-V4, e segna un cambio di passo nella gestione dell’efficienza computazionale.

Il cuore di questa innovazione risiede nel superamento di un limite intrinseco dell’attuale architettura Transformer. Nonostante la loro straordinaria capacità di generare testi e risolvere problemi complessi, questi modelli mancano di un sistema nativo per il recupero delle conoscenze di base. Ogni volta che un modello tradizionale deve elaborare un’informazione semplice, come associare il nome Alessandro all’appellativo Magno, è costretto a mobilitare l’intera e complessa macchina dei meccanismi di attenzione e dei parametri neurali. Questo processo risulta essere uno spreco di risorse, poiché richiede calcoli onerosi per compiti che meriterebbero un accesso più diretto e immediato.

Per risolvere questo problema, i ricercatori hanno introdotto Engram, un sistema di memoria statica che funge da archivio dedicato per le conoscenze consolidate e i contesti passati. A differenza della memoria dinamica utilizzata finora, che cambia continuamente durante una conversazione, Engram struttura la conoscenza durante la fase di apprendimento in modo che possa essere consultata istantaneamente. È come se il modello avesse a disposizione un’enciclopedia interna pronta all’uso, evitando di dover dedurre ogni volta fatti ovvi attraverso ragionamenti logici complessi.

L’aspetto più interessante di questa ricerca riguarda la scoperta di una legge di scala particolare, definita a forma di U, che descrive il bilanciamento ideale tra la parte neurale dedicata al calcolo e la memoria statica. Gli scienziati hanno osservato che l’efficienza non cresce in modo lineare all’aumentare delle risorse, ma raggiunge un picco di ottimizzazione quando circa il venti o venticinque per cento dei parametri viene assegnato alla memoria engrammatica. Questo equilibrio permette di sgravare i livelli principali del modello dai compiti di memorizzazione, liberandoli per concentrarsi su attività di ragionamento di alto livello, matematica e programmazione.

I test condotti su un modello da ventisette miliardi di parametri hanno confermato la validità di questo approccio. Il sistema basato sulla memoria condizionale ha superato i modelli tradizionali della stessa dimensione in diversi ambiti, mostrando miglioramenti significativi non solo nella cultura generale, ma anche nelle capacità logiche e nella gestione di documenti estremamente lunghi. In prove specifiche progettate per trovare una singola informazione nascosta tra decine di migliaia di pagine, il nuovo metodo ha quasi raggiunto la perfezione, superando nettamente le prestazioni dei sistemi standard.

Oltre ai vantaggi prestazionali, questa tecnologia promette una gestione dell’infrastruttura molto più economica e rapida. Poiché il sistema conosce già la posizione esatta delle informazioni prima ancora di iniziare il calcolo, i costi aggiuntivi di gestione sono quasi nulli e la velocità di risposta rimane elevatissima. Questa pubblicazione, insieme ad altri studi recenti sulla stabilità dell’apprendimento e sulle connessioni neurali, suggerisce che la strategia di DeepSeek per il prossimo futuro sia focalizzata sulla creazione di strumenti estremamente potenti ma capaci di operare a costi contenuti, consolidando una visione in cui intelligenza, memoria e velocità procedono di pari passo verso la prossima generazione di intelligenza artificiale.

Di Fantasy