Nell’era digitale odierna, le aziende si affidano sempre più ai modelli di linguaggio di grandi dimensioni (LLM) per offrire servizi avanzati. Tuttavia, gestire i costi computazionali associati all’esecuzione di questi modelli rappresenta una sfida significativa. Un nuovo framework, denominato “chain-of-experts” (CoE), mira a rendere gli LLM più efficienti in termini di risorse, migliorando al contempo la loro accuratezza in compiti di ragionamento. ​

I modelli LLM classici, noti anche come modelli densi, attivano simultaneamente tutti i parametri durante l’inferenza, portando a elevate richieste computazionali man mano che il modello cresce in dimensioni. L’architettura “mixture-of-experts” (MoE), utilizzata in modelli come DeepSeek-V3 e presumibilmente GPT-4o, affronta questa sfida suddividendo il modello in un insieme di esperti. Durante l’inferenza, i modelli MoE utilizzano un router che seleziona un sottoinsieme di esperti per ogni input, riducendo significativamente il sovraccarico computazionale rispetto ai modelli densi. Ad esempio, DeepSeek-V3 è un modello da 671 miliardi di parametri con 257 esperti, nove dei quali vengono utilizzati per ogni token di input, totalizzando 37 miliardi di parametri attivi durante l’inferenza. ​

Tuttavia, i MoE presentano delle limitazioni. Innanzitutto, ogni esperto opera indipendentemente dagli altri, riducendo le prestazioni del modello in compiti che richiedono consapevolezza contestuale e coordinazione tra esperti. In secondo luogo, l’architettura MoE causa alta sparsità, risultando in un modello con elevate esigenze di memoria, nonostante venga utilizzato solo un piccolo sottoinsieme in un dato momento. ​

Il framework chain-of-experts affronta le limitazioni dei MoE attivando gli esperti in sequenza anziché in parallelo. Questa struttura consente agli esperti di comunicare risultati intermedi e di costruire progressivamente sul lavoro degli altri. CoE utilizza un processo iterativo: l’input viene inizialmente indirizzato a un set di esperti, che lo elaborano e passano le loro risposte a un altro set di esperti. Questo approccio sequenziale fornisce input consapevoli del contesto, migliorando significativamente la capacità del modello di gestire compiti di ragionamento complessi. ​

L’approccio chain-of-experts, utilizzando l’attivazione sequenziale e la collaborazione tra esperti, offre diversi vantaggi chiave. In CoE, la selezione degli esperti viene eseguita in modo iterativo, consentendo una comunicazione efficace e la creazione di interdipendenze tra gli esperti, creando un meccanismo di routing più dinamico. Questo può migliorare significativamente le prestazioni del modello mantenendo l’efficienza computazionale, specialmente in scenari complessi come i compiti matematici. ​

Gli esperimenti hanno dimostrato che, con budget computazionali e di memoria equivalenti, CoE supera sia gli LLM densi che i MoE. Ad esempio, in benchmark matematici, un CoE con 64 esperti, quattro esperti instradati e due iterazioni di inferenza (CoE-2(4/64)) supera un MoE con 64 esperti e otto esperti instradati (MoE(8/64)). Inoltre, CoE riduce i requisiti di memoria; un CoE con due dei 48 esperti instradati e due iterazioni (CoE-2(4/48)) raggiunge prestazioni simili a MoE(8/64) utilizzando meno esperti totali, riducendo i requisiti di memoria del 17,6%. CoE consente anche architetture di modelli più efficienti; ad esempio, un CoE-2(8/64) con quattro strati di reti neurali eguaglia le prestazioni di un MoE(8/64) con otto strati, utilizzando però il 42% in meno di memoria. ​
venturebeat.com

Il CoE offre un’accelerazione senza costi aggiuntivi, ottenendo risultati migliori con un sovraccarico computazionale simile rispetto ai precedenti metodi MoE. Ad esempio, un CoE-2(4/64) fornisce 823 combinazioni di esperti in più rispetto al MoE(8/64), permettendo al modello di apprendere compiti più complessi senza aumentare le dimensioni del modello o i requisiti di memoria e calcolo. ​

I costi operativi inferiori e le migliori prestazioni del CoE su compiti complessi possono rendere l’IA avanzata più accessibile alle imprese, aiutandole a rimanere competitive senza investimenti infrastrutturali sostanziali. Questa ricerca apre nuove strade per scalare efficientemente i modelli linguistici, rendendo potenzialmente le capacità avanzate dell’intelligenza artificiale più accessibili e sostenibili.

Di Fantasy