Immagine AI

L’ultima novità AI arriva da TNG Technology Consulting GmbH, un’affermata azienda tedesca con sede a Monaco, che ha recentemente presentato il modello DeepSeek-TNG R1T2 Chimera. Questo modello promette prestazioni raddoppiate rispetto al suo predecessore, DeepSeek R1-0528, mantenendo al contempo un’intelligenza comparabile.

DeepSeek-TNG R1T2 Chimera è una variante avanzata del modello DeepSeek R1-0528, sviluppata utilizzando la tecnica dell’Assembly of Experts (AoE). Questa metodologia consente di combinare i migliori aspetti di diversi modelli preesistenti, creando una nuova architettura che eredita le capacità desiderate da ciascun “genitore”. Nel caso del R1T2, sono stati integrati i modelli DeepSeek R1-0528, R1 e V3-0324.

Il risultato è un modello che offre un’intelligenza superiore rispetto al R1 originale e una velocità di elaborazione significativamente aumentata. In particolare, R1T2 è circa il 20% più veloce del R1 e oltre due volte più rapido rispetto al R1-0528, pur mantenendo oltre il 90% delle prestazioni nei benchmark di intelligenza.

L’Assembly of Experts è una tecnica innovativa che permette di costruire modelli di linguaggio di grandi dimensioni combinando selettivamente i tensori di peso (parametri interni) provenienti da più modelli pre-addestrati. Questa metodologia offre un’alternativa più economica rispetto ai tradizionali metodi di fine-tuning, consentendo di ottenere modelli con prestazioni elevate senza la necessità di un addestramento completo.

Nel caso del R1T2, l’uso dell’AoE ha permesso di risolvere alcune problematiche presenti nelle versioni precedenti, come la coerenza dei token di pensiero, migliorando così l’affidabilità e la coerenza delle risposte generate.

La presentazione del DeepSeek-TNG R1T2 Chimera ha suscitato un notevole interesse nella comunità dell’intelligenza artificiale. Molti sviluppatori e ricercatori hanno lodato le prestazioni del modello, evidenziando la sua capacità di combinare intelligenza e velocità in modo efficace. Ad esempio, Vaibhav Srivastav di Hugging Face ha commentato: “DAMN! DeepSeek R1T2 – 200% più veloce di R1-0528 e 20% più veloce di R1”.

Questa reazione positiva sottolinea l’importanza di approcci innovativi come l’AoE nel migliorare le prestazioni dei modelli di linguaggio, offrendo soluzioni più efficienti e scalabili per una vasta gamma di applicazioni.

Immagine AI

Di Fantasy