Ant, una filiale fintech di Alibaba, ha lanciato un nuovo modello di “mix di esperti” (MoE) progettato per affrontare i problemi di inefficienza dei costi e limitazione delle risorse che si verificano durante l’addestramento dei modelli di intelligenza artificiale. Questo modello, intitolato “Ling”, si distingue per l’uso di chip con specifiche tecniche ridotte, provenienti da AMD o da produttori cinesi, piuttosto che dalle tradizionali GPU di NVIDIA.

Nel suo articolo pubblicato il 24 marzo, Ant ha spiegato come la sua innovativa strategia di apprendimento consenta a modelli complessi come MoE di operare in ambienti con risorse limitate, senza compromettere le prestazioni. La difficoltà principale con i modelli MoE è che, sebbene utilizzino un numero ridotto di parametri per ogni query, richiedono comunque un’alta capacità di memoria, il che comporta costi elevati. Questi costi rappresentano una barriera significativa per l’adozione di MoE in contesti con risorse limitate.

Ant ha affrontato questa problematica sviluppando una serie di ottimizzazioni mirate che consentono un addestramento del modello più efficiente. L’ottimizzazione dell’architettura del modello, ad esempio, seleziona la configurazione più adatta alle risorse di elaborazione disponibili, assicurando che il modello mantenga prestazioni elevate nonostante le limitazioni hardware. Inoltre, è stato creato un framework di apprendimento distribuito che integra più framework in un’unica piattaforma, riducendo drasticamente l’utilizzo della memoria.

Un altro strumento chiave sviluppato da Ant è “XPUTimer”, un leggero strumento di debug che ha permesso di ridurre l’utilizzo della memoria fino al 90%. Inoltre, la strategia di apprendimento asincrono “EDiT” ha contribuito a ridurre i tempi di addestramento del modello fino al 66,1%. L’implementazione di un archivio ad alte prestazioni, utilizzando la tecnologia multi-tenancy e il file system FUSE, ha migliorato ulteriormente l’efficienza dell’input/output, riducendo i tempi di attesa fino al 50%.

Queste ottimizzazioni hanno portato alla creazione di due modelli: “Ling-Lite”, con 16,8 miliardi di parametri totali e 2,75 miliardi di parametri attivabili, e “Ling-Plus”, con 290 miliardi di parametri totali e 28,8 miliardi di parametri attivabili. Entrambi i modelli hanno ottenuto ottimi risultati nei benchmark, dimostrando che anche con hardware dalle specifiche ridotte, è possibile raggiungere prestazioni comparabili a modelli di dimensioni simili, come ‘QONE2.5-72B-Instruct’ e ‘DeepSeek-V2.5-1210-Chat’.

In particolare, il modello “Ling-Plus”, con i suoi 290 miliardi di parametri, è in grado di apprendere efficacemente su hardware meno potente, riducendo i costi di elaborazione di circa il 20% rispetto all’uso di dispositivi di fascia alta. Ad esempio, addestrare 1 trilione di token con hardware ad alte prestazioni costerebbe circa 6,35 milioni di yuan, mentre utilizzando l’approccio sviluppato da Ant, i costi scendono a 5,1 milioni di yuan.

Questa decisione di Ant di sviluppare un modello ad alta efficienza e a basso costo, ispirandosi alla strategia della sua casa madre Alibaba, riflette anche l’attuale contesto tecnologico in Cina, segnato dalle sanzioni statunitensi. Sebbene Ant avesse acquisito chip NVIDIA prima delle sanzioni, ha scelto consapevolmente di utilizzare chip con specifiche inferiori per il suo modello, in linea con le difficoltà di approvvigionamento derivanti dalle restrizioni tecnologiche.

I modelli “Ling-Lite” e “Ling-Plus” sono ora disponibili per il download su HuggingFace, consentendo a sviluppatori e ricercatori di accedere a queste tecnologie avanzate per l’intelligenza artificiale.

Di Fantasy