DeepSeek lancia il modello DeepSeek-V3-0324

La startup cinese DeepSeek ha rilasciato silenziosamente un nuovo modello linguistico di grandi dimensioni chiamato DeepSeek-V3-0324, che sta già creando onde nel settore dell’intelligenza artificiale. Questo modello da 641 gigabyte è apparso oggi sul repository Hugging Face senza alcun annuncio formale, continuando la strategia aziendale di rilasci discreti ma impattanti.

Ciò che rende questo lancio particolarmente significativo è la licenza MIT del modello, che lo rende disponibile gratuitamente per uso commerciale, e le prime segnalazioni secondo cui può essere eseguito direttamente su hardware consumer, specificamente sul Mac Studio di Apple con chip M3 Ultra[1]. Il ricercatore di intelligenza artificiale Awni Hannun ha riportato che il modello quantizzato a 4 bit funziona a più di 20 token al secondo su un M3 Ultra da 512 GB utilizzando mlx-lm.

DeepSeek-V3-0324 utilizza un’architettura Mixture-of-Experts (MoE) che reinventa fondamentalmente il funzionamento dei grandi modelli linguistici. Mentre i modelli tradizionali attivano l’intero conteggio dei parametri per ogni attività, l’approccio di DeepSeek attiva solo circa 37 miliardi dei suoi 685 miliardi di parametri durante compiti specifici
.
Il modello incorpora anche due tecnologie innovative: Multi-Head Latent Attention (MLA) e Multi-Token Prediction (MTP). MLA migliora la capacità del modello di mantenere il contesto in lunghi passaggi di testo, mentre MTP genera più token per passaggio anziché il solito approccio uno alla volta. Insieme, queste innovazioni aumentano la velocità di output di quasi l’80%.

Simon Willison, creatore di strumenti per sviluppatori, ha osservato che una versione quantizzata a 4 bit riduce lo spazio di archiviazione a 352 GB, rendendolo utilizzabile su hardware consumer di fascia alta come il Mac Studio con chip M3 Ultra.

La strategia di rilascio di DeepSeek rappresenta una divergenza fondamentale nella filosofia aziendale dell’AI tra aziende cinesi e occidentali. Mentre leader statunitensi come OpenAI e Anthropic mantengono i loro modelli dietro paywall, le aziende cinesi di AI abbracciano sempre più licenze open source permissive.

Questo approccio sta trasformando rapidamente l’ecosistema AI cinese. La disponibilità aperta di modelli all’avanguardia crea un effetto moltiplicatore, consentendo a startup, ricercatori e sviluppatori di basarsi su tecnologia AI sofisticata senza ingenti spese in conto capitale.

Anche i colossi tecnologici cinesi affermati hanno riconosciuto questo cambiamento. Baidu ha annunciato i piani per rendere open source la sua serie di modelli Ernie 4.5 entro giugno, mentre Alibaba e Tencent hanno rilasciato modelli AI open source con capacità specializzate.

I tempi e le caratteristiche di DeepSeek-V3-0324 suggeriscono fortemente che fungerà da fondamento per DeepSeek-R2, un modello migliorato incentrato sul ragionamento previsto entro i prossimi due mesi. Ciò segue il modello consolidato di DeepSeek, in cui i suoi modelli di base precedono i modelli di ragionamento specializzati di diverse settimane. Se DeepSeek-R2 seguirà la traiettoria tracciata da R1, potrebbe rappresentare una sfida diretta a GPT-5, il prossimo modello di punta di OpenAI che si vocifera verrà rilasciato nei prossimi mesi.

Per coloro che sono interessati a sperimentare DeepSeek-V3-0324, esistono diversi percorsi a seconda delle esigenze tecniche e delle risorse. I pesi completi del modello sono disponibili da Hugging Face, sebbene la dimensione di 641 GB renda il download diretto pratico solo per chi dispone di notevoli risorse di archiviazione e di elaborazione. Per la maggior parte degli utenti, le opzioni basate su cloud offrono il punto di ingresso più accessibile. OpenRouter fornisce accesso API gratuito al modello, con un’interfaccia chat intuitiva.

L’approccio di DeepSeek allo sviluppo e alla distribuzione dell’IA rappresenta più di un risultato tecnico: incarna una visione fondamentalmente diversa di come la tecnologia avanzata dovrebbe propagarsi nella società. Rendendo l’IA all’avanguardia liberamente disponibile con licenza permissiva, DeepSeek consente un’innovazione esponenziale che i modelli chiusi limitano intrinsecamente.

DeepSeek lancia il modello DeepSeek-V3-0324

DiFantasy

Di Fantasy

Articoli correlati

Google lancia AI Edge Eloquent: riconoscimento vocale offline che trasforma la voce in testo strutturato

OpenAI propone tassa sui robot, fondo pubblico e settimana lavorativa di quattro giorni

AI product engineer: Anthropic usa l’AI per ideare, testare e migliorare automaticamente i prodotti

Ultimi Post

Google lancia AI Edge Eloquent: riconoscimento vocale offline che trasforma la voce in testo strutturato

OpenAI propone tassa sui robot, fondo pubblico e settimana lavorativa di quattro giorni

AI product engineer: Anthropic usa l’AI per ideare, testare e migliorare automaticamente i prodotti

Copilot ovunque: Microsoft porta l’AI in oltre 80 prodotti creando confusione tra i servizi