In un momento in cui i carichi di lavoro che utilizzano algoritmi di machine learning e deep learning vengono creati e distribuiti con maggiore frequenza, le organizzazioni devono ottimizzare il throughput di I / O in modo da consentire a tali carichi di lavoro di condividere in modo conveniente le costose risorse GPU utilizzate per addestrare i modelli di intelligenza artificiale. Caso in questione: l’Università di Pisa, che ha costantemente ampliato il numero di GPU che rende accessibile ai ricercatori di IA in un datacenter verde ottimizzato per applicazioni di calcolo ad alte prestazioni (HPC).
La sfida che l’università ha dovuto affrontare durante l’implementazione dell’intelligenza artificiale è che gli algoritmi di machine learning e deep learning tendono a fare richieste di I / O più frequenti a un numero maggiore di file più piccoli rispetto alle applicazioni HPC tradizionali, ha affermato Maurizio Davini, CTO dell’Università di Pisa. Per far fronte a ciò, l’università ha implementato il software NVMesh di Excelero che può accedere a più di 140.000 piccoli file al secondo sui server GPU Nvidia DGX A100 .
Mentre Davini ha affermato di considerare generalmente le applicazioni AI come un altro tipo di carico di lavoro HPC, il modo in cui i carichi di lavoro AI accedono alle risorse di elaborazione e storage richiede un approccio specializzato. Il software NVMesh affronta questo approccio scaricando le richieste di I / O sempre più frequenti, liberando risorse di elaborazione aggiuntive sui server Nvidia per l’addestramento dei modelli di intelligenza artificiale, ha affermato Davini.
Excelero fa parte di un gruppo di aziende che si stanno muovendo per affrontare le sfide di I / O che i team IT dovranno affrontare quando cercheranno di rendere disponibili enormi quantità di dati per i modelli AI. Poiché il numero di modelli di IA che le organizzazioni costruiscono e mantengono inizia a crescere, i sistemi di archiviazione legacy non riescono a tenere il passo. L’Università di Pisa ha implementato Excelero per assicurarsi che l’esperienza IT complessiva dei suoi ricercatori di intelligenza artificiale rimanga soddisfacente, ha affermato Davini.
Ovviamente, approcci più efficienti alla gestione dell’I / O iniziano solo a risolvere i problemi di gestione dei dati che incontreranno le organizzazioni che costruiscono i propri modelli di IA. I team IT tendono a gestire i dati come un’estensione dell’applicazione utilizzata per crearli. Questo approccio è il motivo principale per cui ci sono così tanti silos di dati sparsi in tutta l’azienda.
Ancora più problematico è il fatto che molti dei dati in quei silos sono in conflitto perché applicazioni diverse potrebbero aver reso il nome di una società in modo diverso o semplicemente potrebbero non essere state aggiornate con i dati delle transazioni più recenti. Avere un’unica fonte di verità su un cliente o un evento in un momento specifico nel tempo rimane sfuggente.
I modelli di intelligenza artificiale, tuttavia, richiedono enormi quantità di dati accurati per essere addestrati adeguatamente. In caso contrario, i modelli di intelligenza artificiale genereranno raccomandazioni basate su presupposti imprecisi perché i dati a cui sono stati esposti gli algoritmi di apprendimento automatico erano incoerenti o inaffidabili. Le organizzazioni IT stanno affrontando questo problema investendo prima di tutto in enormi data lake per normalizzare tutti i loro dati e quindi applicando i migliori processi di DataOps , come delineato in un manifesto che descrive come automatizzare il maggior numero possibile di attività di preparazione e gestione dei dati.
Gli approcci legacy alla gestione dei dati basati sui processi manuali di copia e incolla sono uno dei motivi principali per cui ci vuole così tanto tempo per costruire un modello di intelligenza artificiale. I team di data science sono fortunati se possono implementare due modelli di intelligenza artificiale all’anno. I fornitori di servizi cloud come Amazon Web Services (AWS) offrono prodotti come Amazon SageMaker per automatizzare la costruzione di modelli di intelligenza artificiale, aumentando la velocità con cui i modelli di intelligenza artificiale vengono creati nei mesi a venire.
Non tutte le organizzazioni, tuttavia, si impegneranno a creare modelli di IA nel cloud. Ciò richiede l’archiviazione dei dati in una piattaforma esterna, che crea una serie di potenziali problemi di conformità che potrebbero piuttosto evitare. L’Università di Pisa, ad esempio, trova più facile convincere i funzionari a destinare il budget a un data center locale piuttosto che concedere il permesso di accedere a un cloud esterno, ha osservato Davini.
In definitiva, l’obiettivo è eliminare l’attrito nella gestione dei dati che è stato a lungo una piaga per l’IT adottando una serie di processi DataOps di natura simile alle best practice DevOps ampiamente utilizzate per semplificare lo sviluppo e la distribuzione delle applicazioni. Tuttavia, tutte le migliori pratiche al mondo non faranno molta differenza se la piattaforma di archiviazione sottostante è semplicemente troppo lenta per tenere il passo.