La conferenza ACL (Association for Computational Linguistics) di Vienna ha assegnato il prestigioso “Best Paper Award” a un articolo innovativo che promette di rivoluzionare l’efficienza dei modelli linguistici di grandi dimensioni. Il paper, intitolato “Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”, è stato redatto da un team di ricerca che include il fondatore di DeepSeek, Liang Wenfeng, e collaboratori di Peking University e altre istituzioni.
Il cuore dell’articolo è la proposta della “Native Sparse Attention” (NSA), un meccanismo di attenzione sparsa progettato per essere nativamente addestrabile e ottimizzato per l’hardware moderno. Tradizionalmente, i modelli di linguaggio utilizzano meccanismi di attenzione che richiedono un elevato consumo di risorse computazionali, specialmente quando si trattano sequenze di testo molto lunghe. La NSA affronta questo problema introducendo una strategia di attenzione sparsa gerarchica, che combina la compressione dei token, la selezione selettiva dei token rilevanti e l’uso di finestre scorrevoli per mantenere il contesto locale. Questa architettura consente di ridurre significativamente il carico computazionale senza compromettere le prestazioni del modello.
I risultati sperimentali mostrano che la NSA offre miglioramenti significativi in termini di velocità e efficienza. In particolare, l’uso della NSA ha portato a un aumento della velocità di decodifica di oltre 11 volte rispetto ai modelli basati su attenzione completa, con miglioramenti anche nelle fasi di propagazione in avanti e indietro. Questi miglioramenti sono stati ottenuti senza sacrificare la qualità delle risposte del modello, che ha continuato a superare o eguagliare i modelli tradizionali in vari benchmark.
Questa innovazione ha implicazioni pratiche significative per applicazioni che richiedono l’elaborazione di testi lunghi, come la sintesi automatica di documenti, la comprensione del codice e il ragionamento complesso. La capacità di gestire sequenze di testo più lunghe in modo più efficiente apre nuove possibilità per lo sviluppo di modelli linguistici avanzati.
Il riconoscimento da parte dell’ACL evidenzia anche il crescente impatto della ricerca cinese nel campo dell’elaborazione del linguaggio naturale. Quest’anno, oltre il 50% dei primi autori degli articoli accettati proveniva dalla Cina, un aumento significativo rispetto a meno del 30% dell’anno precedente. Questo trend sottolinea l’importanza crescente della Cina nella ricerca di base sull’intelligenza artificiale.