Yandex, la multinazionale tecnologica russa, ha lanciato YaFSDP, uno strumento open source progettato per ottimizzare la formazione dei modelli linguistici di grandi dimensioni (LLM). Questo strumento migliora la comunicazione tra le unità di elaborazione grafica (GPU) e riduce l’utilizzo della memoria, aumentando la velocità di formazione fino al 26% rispetto agli strumenti esistenti.
Rispetto al tradizionale metodo FSDP, YaFSDP dimostra miglioramenti significativi nella velocità di formazione, soprattutto per modelli di grandi dimensioni. Ad esempio, su modelli come Llama 2 e Llama 3, entrambi con 70 miliardi di parametri, YaFSDP ha mostrato un aumento di velocità rispettivamente del 21% e del 26%. Questi miglioramenti fanno di YaFSDP uno strumento prezioso per gli sviluppatori di intelligenza artificiale che lavorano con modelli complessi.
Ottimizzando l’uso delle GPU, YaFSDP può portare a risparmi significativi per sviluppatori e aziende, potenzialmente risparmiando centinaia di migliaia di dollari al mese.
La formazione dei modelli linguistici di grandi dimensioni richiede molte risorse e potenza di calcolo, spesso comportando costi elevati e tempi di formazione lunghi. YaFSDP affronta queste sfide migliorando la velocità di formazione e riducendo il consumo di risorse. Ad esempio, in scenari con modelli di 70 miliardi di parametri, YaFSDP può risparmiare fino all’equivalente di circa 150 GPU, portando a potenziali risparmi mensili da 0,5 a 1,5 milioni di dollari, a seconda del fornitore di GPU. Lo strumento è particolarmente efficace durante le fasi più complesse della formazione dei modelli linguistici di grandi dimensioni.