In che modo il nuovo supercomputer di IBM sta rendendo i modelli di base AI più adatti al budget aziendale
I modelli di base stanno cambiando il modo in cui l’intelligenza artificiale (AI) e l’apprendimento automatico (ML) possono essere utilizzati. Tutta quella potenza ha però un costo, poiché la creazione di modelli di base per l’IA è un’attività che richiede molte risorse.
IBM ha annunciato oggi di aver costruito il proprio supercomputer AI per fungere da base letterale per le sue iniziative di ricerca e sviluppo di formazione sul modello di base. Chiamato Vela, è stato progettato come un sistema cloud-native che utilizza hardware standard del settore, tra cui silicio x86, GPU Nvidia e reti basate su Ethernet.
Lo stack software che consente l’addestramento del modello di base utilizza una serie di tecnologie open source tra cui Kubernetes, PyTorch e Ray. Sebbene IBM stia rivelando ufficialmente solo ora l’esistenza del sistema Vela, in realtà è online a vario titolo dal maggio 2022.
“Pensiamo davvero che questo concetto di tecnologia attorno ai modelli di base abbia un enorme, enorme potenziale dirompente”, ha dichiarato a VentureBeat Talia Gershon, direttrice della ricerca sull’infrastruttura cloud ibrida presso IBM. “Quindi, come divisione e come azienda, stiamo investendo molto in questa tecnologia”.
La fondazione AI- e budget-friendly all’interno di Vela
IBM non è estranea al mondo del calcolo ad alte prestazioni (HPC) e dei supercomputer. Uno dei supercomputer più veloci del pianeta oggi è il supercomputer Summit costruito da IBM e attualmente impiegato nell’Oak Ridge National Laboratory.
Il sistema Vela, tuttavia, non è come altri sistemi di supercomputer che IBM ha costruito fino ad oggi. Per cominciare, il sistema Vela è ottimizzato per l’intelligenza artificiale e utilizza hardware di base x86, al contrario delle apparecchiature più esotiche (e costose) che si trovano tipicamente nei sistemi HPC.
A differenza di Summit, che utilizza il processore IBM Power, ogni nodo Vela dispone di una coppia di processori scalabili Intel Xeon. IBM sta anche caricando le GPU Nvidia, con ogni nodo del supercomputer dotato di otto GPU A100 da 80 GB. In termini di connettività, ciascuno dei nodi di calcolo è connesso tramite più interfacce di rete Ethernet da 100 gigabit al secondo.
Vela è stato inoltre creato appositamente per il cloud native, il che significa che esegue Kubernetes e container per abilitare i carichi di lavoro delle applicazioni. Più specificamente, Vela si affida a Red Hat OpenShift , che è la piattaforma Kubernetes di Red Hat. Vela è stato inoltre ottimizzato per eseguire PyTorch per l’addestramento ML e utilizza Ray per ridimensionare i carichi di lavoro.
IBM ha anche creato un nuovo sistema di pianificazione del carico di lavoro per il suo nuovo supercomputer cloud-native. Per molti dei suoi sistemi HPC, IBM utilizza da tempo il proprio Spectrum LSF (struttura di condivisione del carico) per la pianificazione, ma quel sistema non è quello che utilizza il nuovo supercomputer Vela. IBM ha sviluppato un nuovo programma di pianificazione chiamato MCAD (multicluster app dispatcher) per gestire la pianificazione dei lavori nativa del cloud per la formazione AI del modello di base.
Portafoglio di modelli base in crescita di IBM
Tutto l’hardware e il software che IBM ha messo insieme per Vela è già utilizzato per supportare gli sforzi del modello di base di IBM.
“Tutte le attività di ricerca e sviluppo dei nostri modelli di base sono tutte in esecuzione cloud native su quello stack sul sistema Vela e su IBM Cloud”, ha affermato Gershon.
Proprio la scorsa settimana, IBM ha annunciato una partnership con la NASA per aiutare a costruire modelli di base per la scienza del clima. IBM sta anche lavorando a un modello di base chiamato MoLFormer-XL per le scienze della vita che può aiutare a creare nuove molecole in futuro.
Il lavoro del modello di base si estende anche all’IT aziendale con lo sforzo Project Wisdom annunciato nell’ottobre 2022. Project Wisdom è stato sviluppato a supporto della tecnologia di configurazione IT di Red Hat Ansible. In genere, la configurazione del sistema IT può essere un esercizio complicato che richiede la conoscenza del dominio per essere eseguito correttamente. Project Wisdom mira a portare un’interfaccia in linguaggio naturale ad Ansible, in base alla quale gli utenti digiteranno semplicemente ciò che desiderano e il modello di base capirà e quindi aiuterà a eseguire l’attività desiderata.
Gershon ha anche accennato a un nuovo modello di base IBM per la sicurezza informatica che non è stato ancora dettagliato pubblicamente e che è in fase di sviluppo utilizzando il supercomputer Vela.
“Non ne abbiamo parlato molto esternamente, penso apposta”, ha detto Gershon a proposito del modello di base per la sicurezza informatica. “Crediamo che questa tecnologia sarà rivoluzionaria in termini di rilevamento delle minacce”.
Sebbene IBM stia costruendo un portafoglio di modelli di base, non intende competere direttamente con alcuni dei ben noti modelli di base generali, come GPT-3 di OpenAI.
“Non ci concentriamo necessariamente sulla costruzione di un’IA generale, mentre forse altri giocatori lo affermano più come obiettivo”, ha detto Gershon. “Siamo interessati ai modelli di base perché riteniamo che abbiano un enorme valore commerciale per i casi d’uso aziendali”.