Un gruppo di ricerca del Korea Advanced Institute of Science and Technology (KAIST) ha sviluppato una nuova tecnologia per l’apprendimento dei modelli di intelligenza artificiale (AI) che non richiede costose GPU o reti ad alta velocità.
Il professor Dong-Soo Han e il suo team hanno annunciato che la nuova tecnologia può accelerare l’apprendimento dei modelli AI da decine a centinaia di volte, anche in ambienti con larghezza di banda limitata, utilizzando GPU di consumo generali.
Tradizionalmente, l’apprendimento dei modelli AI richiedeva server con GPU ad alte prestazioni, come le NVIDIA “H100”, che costano milioni di won, e un’infrastruttura costosa con reti a 400 Gbps. Questo ha reso difficile per molte aziende e ricercatori accedere a tali risorse.
Il nuovo framework di apprendimento distribuito, chiamato “Stellar Train”, permette un apprendimento efficace anche con una connessione Internet comune. Utilizza CPU e GPU in parallelo per aumentare la velocità di apprendimento e applica un algoritmo che ottimizza la compressione e la trasmissione dei dati in base alla larghezza di banda disponibile.
In particolare, Stellar Train massimizza l’efficienza delle risorse di calcolo dividendo l’apprendimento tra CPU e GPU in diverse fasi del compito. Inoltre, monitora in tempo reale l’utilizzo delle GPU per determinare dinamicamente quanti campioni devono essere elaborati, adattandosi alle variazioni della larghezza di banda della rete.
I risultati della ricerca mostrano che l’uso della tecnologia Stellar Train può portare a prestazioni fino a 104 volte superiori rispetto ai metodi di apprendimento parallelo tradizionali.
Questa ricerca è stata condotta insieme al dottor Lim Hwi-jun, al dottorando Jun-cheol Ye e alla professoressa Sangita Abdu Joshi dell’UC Irvine. I risultati sono stati presentati all’ACM SIGCOMM 2024 a Sydney, in Australia, lo scorso agosto.
Inoltre, nel luglio 2024, il gruppo di ricerca ha annunciato un’altra tecnologia per l’apprendimento di modelli linguistici di grandi dimensioni utilizzando un numero limitato di GPU. Questa innovazione ha permesso di ridurre da 8 a 16 volte il numero di GPU necessarie per l’apprendimento di modelli con 15 miliardi di parametri.
Il progetto è stato sostenuto dalla Fondazione Nazionale di Ricerca della Corea, sotto il Ministero della Scienza e dell’ICT, e ha ricevuto supporto anche da Samsung Electronics.