Circolano voci su un possibile lancio imminente del nuovo modello di inferenza di DeepSeek, denominato “DeepSeek-R2”, che potrebbe avere un impatto significativo nel panorama tecnologico, specialmente nei paesi occidentali. Secondo alcune indiscrezioni, se confermato, questo modello potrebbe rivoluzionare il settore grazie a prestazioni superiori a quelle dei modelli attuali, tra cui GPT-4o di OpenAI, con un costo di inferenza ridotto di oltre il 97%. La notizia è emersa il 29 aprile, quando alcuni media cinesi, tra cui il South China Morning Post, hanno riportato che i dettagli di DeepSeek-R2 sono trapelati online.

Il primo indizio riguardante DeepSeek-R2 è stato rivelato il 25 aprile su un forum della comunità cinese, dove un utente, conosciuto come ‘Hotspot Chaser’, ha condiviso un post dal titolo “DeepSeek-R2: calo del prezzo del 97,3%, in arrivo a breve, elenco dei prodotti principali”. In questo post, l’utente ha fornito alcuni dettagli cruciali sul modello, tra cui tre innovazioni tecnologiche principali: l’architettura, l’ingegneria dei dati e l’applicazione hardware.

Particolarmente interessante è l’adozione di una nuova architettura, l’Hybrid MoE 3.0, che combina un modello di inferenza con uno di non inferenza. Inoltre, il modello R2 vanta ben 1,2 trilioni di parametri, quasi il doppio di quelli del precedente modello R1, che ne contava 671 miliardi. Questo lo rende il modello di intelligenza artificiale più grande mai pubblicato, con un numero di parametri che supera la barriera del trilione, una novità assoluta.

In termini di costi, un test condotto da Alibaba Cloud ha mostrato che DeepSeek-R2 riduce drasticamente i costi di inferenza: il prezzo per la gestione del testo lungo è diminuito del 97,3% rispetto a GPT-4o. Il costo per 1 milione di token di input è di soli 0,07 dollari, mentre quello per l’output è di 0,27 dollari, molto più conveniente rispetto a R1, che aveva un costo di output di 1,10 dollari.

Altra importante innovazione riguarda l’addestramento del modello, che ha visto l’utilizzo di una tecnologia di “distillazione” e un set di dati di alta qualità da 5,2 petabyte. Questo ha permesso al modello di migliorare la sua precisione fino all’89,7%. Inoltre, l’uso di chip Huawei Ascend 910B ha raggiunto un’efficienza di calcolo pari a 512 petaflop, con una precisione FP16 che ha raggiunto il 91% dell’efficienza dei chip Nvidia A100, sorprendentemente eguagliando in prestazioni i chip di punta di Nvidia, nonostante le difficoltà dovute ai controlli sulle esportazioni imposti dagli Stati Uniti.

Un altro aspetto interessante è la capacità multimodale di DeepSeek-R2. Il modello utilizza l’architettura Vision Transformer (ViT-Transformer), che ha migliorato del 11,6% le prestazioni rispetto al modello CLIP di OpenAI, soprattutto nelle attività di segmentazione degli oggetti. In ambito medico, è stato registrato un tasso di accuratezza del 98,1% nell’interpretazione delle radiografie del torace, un risultato notevole.

Infine, la possibilità di ridurre le dimensioni del modello fino all’83% senza compromettere la precisione di più del 2% grazie alla tecnologia di compressione della quantizzazione potrebbe rendere possibile l’implementazione edge, rendendo il modello più versatile e accessibile.

Sebbene alcuni media cinesi abbiano sottolineato che queste informazioni potrebbero essere solo speculazioni, se confermate, le innovazioni introdotte da DeepSeek-R2 potrebbero davvero stupire il mondo. Se questi sviluppi dovessero rivelarsi veri, la Cina potrebbe finalmente avere la potenza di calcolo necessaria per competere alla pari con i leader del settore, come Nvidia, nonostante le restrizioni imposte dalle politiche internazionali.

Di Fantasy