DeepSeek, una startup cinese specializzata in intelligenza artificiale, ha recentemente presentato DeepSeek-V3, un modello open-source di dimensioni ultra-large che promette di ridefinire gli standard nel campo dell’IA. Con 671 miliardi di parametri, questo modello utilizza un’architettura “mixture-of-experts” (MoE) che attiva selettivamente i parametri necessari per svolgere compiti specifici, garantendo così un equilibrio tra efficienza e precisione.
Secondo i benchmark forniti da DeepSeek, DeepSeek-V3 supera modelli open-source di rilievo come Llama 3.1-405B di Meta e si avvicina alle prestazioni di modelli proprietari di aziende come Anthropic e OpenAI. Questo risultato rappresenta un passo significativo verso la riduzione del divario tra modelli open-source e quelli chiusi, avvicinando la comunità scientifica all’obiettivo dell’intelligenza artificiale generale (AGI).
L’architettura di DeepSeek-V3 si basa su tecniche avanzate come l’attenzione latente multi-head (MLA) e il framework DeepSeekMoE, che consentono al modello di attivare circa 37 miliardi di parametri per ogni token elaborato. Questa configurazione garantisce un equilibrio ottimale tra capacità computazionale e accuratezza. Inoltre, DeepSeek ha introdotto innovazioni come una strategia di bilanciamento del carico senza perdita ausiliaria, che monitora e regola dinamicamente l’utilizzo degli “esperti” per mantenere un funzionamento equilibrato senza compromettere le prestazioni. Un’altra caratteristica innovativa è la previsione multi-token (MTP), che permette al modello di prevedere simultaneamente più token futuri, aumentando l’efficienza del training e consentendo una generazione di testo tre volte più veloce, con una produzione di 60 token al secondo.
Durante la fase di pre-training, DeepSeek-V3 è stato addestrato su 14,8 trilioni di token di alta qualità e diversificati, garantendo una vasta comprensione linguistica e contestuale. Successivamente, il modello ha subito un’estensione della lunghezza del contesto in due fasi, migliorando ulteriormente la sua capacità di gestire informazioni complesse e prolungate.
La disponibilità di DeepSeek-V3 su piattaforme come Hugging Face, sotto l’accordo di licenza dell’azienda, offre alla comunità di sviluppatori e ricercatori l’opportunità di esplorare e sfruttare le potenzialità di questo modello avanzato. L’approccio open-source adottato da DeepSeek non solo promuove l’innovazione collaborativa, ma potrebbe anche accelerare l’adozione di soluzioni IA avanzate in vari settori, democratizzando l’accesso a tecnologie di intelligenza artificiale di alto livello.