Immagine AI

Dove la corsa alle dimensioni dei modelli AI è spesso legata alla disponibilità di immense risorse computazionali, alcune realtà stanno cercando strade alternative per restare competitive. È in questo contesto che DeepSeek ha pubblicato il framework Manifold-Constrained Hyper-Connections (mHC), un nuovo approccio pensato per rendere l’addestramento di modelli di grandi dimensioni più stabile ed economicamente sostenibile. Il lavoro, reso disponibile attraverso l’archivio scientifico arXiv, vede tra i coautori anche il fondatore di DeepSeek, Liang Wenping, e si inserisce chiaramente nella strategia dell’azienda di puntare su architetture efficienti e su un uso estremamente ottimizzato dell’infrastruttura.

La ricerca nasce da una constatazione semplice ma cruciale: non tutte le aziende possono permettersi la stessa abbondanza di GPU e di risorse di calcolo delle grandi big tech statunitensi. Invece di competere sul piano della forza bruta, DeepSeek ha scelto di concentrarsi sulla qualità dell’architettura e sulla stabilità dell’apprendimento, due fattori che diventano sempre più critici man mano che i modelli crescono in profondità e numero di parametri. mHC rappresenta un tassello importante di questa visione, perché interviene su uno degli elementi strutturali più fondamentali del deep learning moderno: le connessioni residue.

Le connessioni residue sono state introdotte per la prima volta nel 2015 con la rete ResNet, sviluppata dai ricercatori di Microsoft Research Asia, e hanno cambiato radicalmente il modo in cui vengono progettate le reti neurali profonde. Il problema che cercavano di risolvere era noto: all’aumentare della profondità di una rete, le informazioni di base e i gradienti tendono a indebolirsi o a scomparire, rendendo l’apprendimento instabile e inefficiente. La soluzione è stata quella di creare una “scorciatoia” che permettesse all’input di un livello di essere trasmesso direttamente ai livelli successivi, preservando le informazioni essenziali. Questa idea, apparentemente semplice, è diventata uno standard di fatto e oggi è alla base di architetture che vanno dai grandi modelli linguistici come GPT fino a sistemi di AI scientifica come AlphaFold.

Nel 2024, i ricercatori di ByteDance hanno proposto il concetto di Hyper-Connections (HC), un’evoluzione delle connessioni residue che ne ampliava il flusso e diversificava le modalità di collegamento tra i livelli. Questo approccio ha mostrato miglioramenti interessanti in termini di capacità espressiva, ma ha anche introdotto nuovi problemi. In particolare, l’espansione eccessiva della struttura di connessione ha finito per indebolire la cosiddetta “mappatura dell’identità”, ovvero la capacità della rete di trasmettere l’input praticamente invariato quando necessario. Quando questa proprietà viene compromessa, l’apprendimento può diventare instabile, la scalabilità risulta limitata e il consumo di memoria cresce in modo significativo.

Il contributo di DeepSeek con mHC nasce proprio dall’analisi di questi limiti. Invece di abbandonare l’idea delle hyper-connections, i ricercatori hanno scelto di disciplinarle, introducendo un vincolo matematico che limita lo spazio in cui le connessioni residue possono evolvere durante l’addestramento. Questo spazio vincolato viene definito come una varietà, ovvero un dominio in cui valgono regole precise. In termini intuitivi, significa impedire alle connessioni residue di “muoversi liberamente” in qualsiasi direzione, costringendole invece a mantenere una forma che preserva la trasmissione dell’informazione originale.

Il concetto può essere paragonato a una differenza tra una strada senza corsie e un’autostrada ben delimitata. Nel primo caso, il movimento è teoricamente libero ma caotico e pericoloso; nel secondo, i vincoli rendono il flusso più sicuro ed efficiente. Allo stesso modo, mHC stabilisce dei limiti di sicurezza entro cui le connessioni residue possono essere modificate, evitando che la scorciatoia informativa venga distorta o annullata. Questo ripristino della mappatura dell’identità è centrale, perché consente alla rete di mantenere stabilità anche quando diventa molto profonda o molto ampia.

Dal punto di vista tecnico, il framework lega la matrice di connessione residua a una varietà costruita su matrici doppiamente stocastiche, una scelta che contribuisce a ridurre in modo significativo le instabilità tipiche dell’apprendimento su larga scala. I risultati mostrati nell’articolo indicano che mHC consente un addestramento stabile ed efficiente su modelli da 3 miliardi, 9 miliardi e fino a 27 miliardi di parametri, con un costo computazionale aggiuntivo minimo rispetto alle architetture tradizionali. Questo aspetto è particolarmente rilevante, perché dimostra che la stabilità non viene ottenuta sacrificando l’efficienza, ma anzi attraverso una progettazione più intelligente del flusso di informazioni.

Un altro elemento chiave del lavoro è l’attenzione all’implementazione pratica. I ricercatori di DeepSeek sottolineano come il vero fulcro del framework non sia la complessità matematica, ma l’efficienza dell’apprendimento. Per questo hanno sviluppato un kernel mHC dedicato, basato su tecniche di precisione mista e sulla fusione di più operazioni, in modo da ridurre i colli di bottiglia legati alla memoria. Hanno inoltre scelto di non memorizzare i risultati intermedi della propagazione in avanti, ricalcolandoli durante la retropropagazione per abbattere drasticamente l’uso di memoria. Anche la comunicazione nei contesti di addestramento parallelo è stata ottimizzata, separando alcune operazioni critiche in percorsi di esecuzione ad alta priorità.

Secondo DeepSeek, approcci come HC hanno portato miglioramenti prestazionali importanti, ma al prezzo di una compromissione delle proprietà intrinseche delle connessioni residue. mHC viene presentato come un’estensione flessibile e pragmatica di queste idee, capace di affrontarne i difetti strutturali senza rinunciare ai benefici. In questo senso, il framework non è soltanto una proposta teorica, ma un tentativo concreto di rendere l’addestramento di modelli su larga scala più accessibile anche a chi non dispone di risorse illimitate.

Infine, non manca una lettura strategica più ampia. Nel settore si guarda con interesse alla possibilità che DeepSeek presenti un nuovo modello di prossima generazione in prossimità del Capodanno lunare, seguendo uno schema già visto in passato con il modello R1. Alcuni analisti interpretano la pubblicazione di mHC anche come una sorta di anticipazione tecnologica, un segnale delle fondamenta architetturali su cui potrebbero poggiare i futuri modelli dell’azienda.

Di Fantasy