DeepSeek ha inaugurato la sua “Settimana Open Source” con il rilascio di FlashMLA. Questo kernel di decodifica è stato progettato specificamente per le GPU Hopper, ottimizzando l’elaborazione di sequenze a lunghezza variabile ed è attualmente in produzione.​

FlashMLA supporta il formato numerico BF16 e integra una cache KV paginata con una dimensione di blocco di 64. Sulle GPU H800, il kernel raggiunge velocità di 3000 GB/s in configurazioni limitate dalla memoria e 580 TFLOPS in configurazioni limitate dal calcolo. Queste prestazioni sono state ispirate da progetti come FlashAttention 2&3 e Cutlass. Il codice sorgente di FlashMLA è disponibile su GitHub per esplorazione e utilizzo da parte della comunità.​

L’introduzione di FlashMLA promette di migliorare significativamente l’efficienza computazionale, in particolare in applicazioni legate all’intelligenza artificiale e in settori come gli algoritmi di trading di criptovalute. La capacità di gestire sequenze a lunghezza variabile con elevate prestazioni rende questo kernel un’aggiunta preziosa per gli sviluppatori e i ricercatori che lavorano con grandi volumi di dati e richiedono elaborazioni rapide e precise.​

Oltre al rilascio di FlashMLA, DeepSeek ha annunciato l’intenzione di lanciare cinque nuovi repository open-source nell’arco di questa settimana. Attualmente, l’azienda vanta una collezione di 14 modelli e repository open-source su Hugging Face. Recentemente, ha introdotto i modelli DeepSeek-R1 e DeepSeek-V3, che offrono prestazioni all’avanguardia pur essendo stati addestrati e distribuiti a una frazione del costo rispetto ai concorrenti. Questo impegno verso l’open-source riflette la filosofia di DeepSeek di promuovere la trasparenza e la collaborazione nella comunità dell’intelligenza artificiale.

Di Fantasy