IBM ha sviluppato una tecnologia ottica innovativa che promette di trasformare l’infrastruttura dei data center, accelerando significativamente l’addestramento dei modelli linguistici di grandi dimensioni (LLM) come il Llama di Meta.
L’addestramento di modelli linguistici avanzati richiede enormi quantità di dati e potenza computazionale. Tradizionalmente, i data center utilizzano interconnessioni elettriche basate su cavi in rame per trasferire dati tra i chip. Tuttavia, con l’aumento esponenziale del traffico dati, che vede il 75% del traffico dei data center avvenire all’interno degli stessi, queste soluzioni stanno raggiungendo i loro limiti in termini di velocità ed efficienza energetica.
Per superare queste limitazioni, IBM ha introdotto la tecnologia Co-Packaged Optics (CPO), che integra direttamente componenti ottici e elettronici all’interno dei chip. Questo approccio consente una trasmissione dati ad altissima velocità, simile a quella delle fibre ottiche, ma su scala chip. La tecnologia CPO utilizza guide d’onda ottiche in polimero (PWG) per facilitare la trasmissione dati, sostituendo le tradizionali interconnessioni elettriche in rame.
I test condotti da IBM hanno dimostrato che l’utilizzo della tecnologia CPO può accelerare l’addestramento del modello Llama 3-70B di Meta fino a cinque volte rispetto ai metodi tradizionali. Questo risultato è stato ottenuto attraverso l’implementazione di parallelismo dei dati completamente condiviso (FSDP) e parallelismo tensoriale (TP), mostrando che un aumento del grado di TP può influenzare il throughput fino a cinque volte.
Inoltre, la tecnologia CPO offre significativi vantaggi in termini di efficienza energetica. Secondo IBM, l’adozione di CPO nei data center può ridurre il consumo energetico di oltre cinque volte rispetto alle interconnessioni elettriche di fascia media. Questo si traduce in un risparmio energetico durante l’addestramento dei modelli di IA, equivalente al consumo annuo di 5.000 abitazioni negli Stati Uniti per ogni modello addestrato.
L’introduzione della tecnologia CPO non solo migliora la velocità e l’efficienza energetica, ma estende anche la portata dei cavi di interconnessione da uno a centinaia di metri. Ciò offre una maggiore flessibilità nella progettazione dei data center, permettendo configurazioni più scalabili e adattabili alle crescenti esigenze di elaborazione dell’IA.
I prototipi sviluppati da IBM hanno dimostrato durabilità in condizioni estreme, inclusa un’ampia gamma di temperature e alti livelli di umidità, sottolineando la robustezza della tecnologia per applicazioni pratiche.