Perché l’IA distribuita è la chiave per spingere la busta dell’innovazione dell’IA
Il futuro dell’IA è distribuito, ha affermato Ion Stoica, co-fondatore, presidente esecutivo e presidente di Anyscale il primo giorno di VB Transform . E questo perché la complessità del modello non mostra segni di rallentamento.
“Negli ultimi due anni, i requisiti di calcolo per addestrare un modello all’avanguardia, a seconda del set di dati, sono aumentati da 10 a 35 volte ogni 18 mesi “, ha affermato.
Solo cinque anni fa i modelli più grandi montavano su una singola GPU; avanti veloce fino ad oggi e solo per adattarsi ai parametri dei modelli più avanzati, sono necessarie centinaia o addirittura migliaia di GPU. PaLM, o Pathway Language Model di Google, ha 530 miliardi di parametri , e questa è solo la metà dei più grandi, con oltre 1 trilione di parametri. L’azienda utilizza più di 6.000 GPU per addestrare le più recenti.
Anche se questi modelli smettessero di crescere e le GPU continuassero a progredire alla stessa velocità degli anni precedenti, ci vorrebbero comunque circa 19 anni prima che sia abbastanza sofisticato da eseguire questi modelli all’avanguardia su una singola GPU, ha aggiunto Stoica .
“Fondamentalmente, si tratta di un enorme divario, che cresce di mese in mese, tra le richieste delle applicazioni di apprendimento automatico e le capacità di un singolo processore o di un singolo server”, ha affermato. “Non c’è altro modo per supportare questi carichi di lavoro che distribuirli. E ‘così semplice. Scrivere queste applicazioni distribuite è difficile. In realtà è ancora più difficile di prima”.
Le sfide uniche del ridimensionamento di applicazioni e carichi di lavoro
Ci sono più fasi nella creazione di un’applicazione di machine learning, dall’etichettatura e preelaborazione dei dati, alla formazione, all’ottimizzazione degli iperparametri, alla pubblicazione, all’apprendimento per rinforzo e così via, e ognuna di queste fasi deve essere ridimensionata. In genere ogni passaggio richiede un sistema distribuito diverso. Per creare pipeline o applicazioni di machine learning end-to-end, ora è necessario unire questi sistemi, ma anche gestirli. E richiede anche lo sviluppo su una varietà di API. Tutto ciò aggiunge un’enorme quantità di complessità a un progetto AI/ML.
La missione del progetto open source Ray Distributed Computing, e Anyscale, è rendere più semplice il ridimensionamento di questi carichi di lavoro di calcolo distribuito, ha affermato Stoica.
“Con Ray, abbiamo cercato di fornire un framework di calcolo su cui è possibile creare queste applicazioni end-to-end”, ha affermato. “W Anyscale fornisce fondamentalmente un Ray ospitato e gestito e, naturalmente, funzionalità e strumenti di sicurezza per semplificare lo sviluppo, l’implementazione e la gestione di queste applicazioni”.
Calcolo ibrido con stato e senza stato
L’azienda ha recentemente lanciato un prodotto serverless, che astrae le funzioni richieste, eliminando la necessità di preoccuparsi di dove verranno eseguite queste funzioni e alleggerendo il carico di sviluppatori e programmatori man mano che si ridimensionano. Ma con un’infrastruttura trasparente, le funzioni sono limitate nella loro funzionalità: eseguono calcoli, riscrivono i dati su S3, ad esempio, e poi non ci sono più, ma molte applicazioni richiedono operatori con stato.
Ad esempio, l’addestramento, che richiede una grande quantità di dati, diventerebbe troppo costoso se venissero riscritti su S3 dopo ogni iterazione, o anche solo spostati dalla memoria della GPU alla memoria della macchina, a causa del sovraccarico di ottenere il dati in, e quindi in genere anche serializzare e de-serializzare quei dati.
“Ray, fin dal primo giorno, è stato costruito attorno a questo tipo di operatori che possono mantenere lo stato e possono aggiornare lo stato continuamente, che nel gergo dell’ingegneria del software chiamiamo ‘attori'”, afferma. “Ray ha sempre supportato questa modalità duale di questo tipo di calcolo stateless e stateful.”
In quale inning è l’implementazione dell’IA?
C’è la tentazione di dire che l’implementazione dell’IA ha finalmente raggiunto la fase di cammino, spinta in avanti nel viaggio di trasformazione dell’IA dalla recente accelerazione della crescita digitale, ma abbiamo appena visto la punta dell’iceberg, ha affermato Stoica. C’è ancora un divario nell’attuale dimensione del mercato, rispetto all’opportunità, simile allo stato dei big data circa 10 anni fa.
“Ci vuole tempo perché il tempo [necessario] non è solo per lo sviluppo di strumenti”, ha affermato. “Si tratta di formare le persone. Esperti di formazione. Ciò richiede ancora più tempo. Se guardi ai big data e a cosa è successo, otto anni fa molte università hanno iniziato a fornire lauree in scienza dei dati. E ovviamente ora ci sono molti corsi, corsi di intelligenza artificiale, ma penso che vedrai sempre più corsi di intelligenza artificiale e dati applicati, di cui non ce ne sono molti oggi”.