PERCHÉ LA MAGGIOR PARTE DEI PROGETTI DI DATA SCIENCE NON ARRIVA MAI ALLA PRODUZIONE
Oggi la maggior parte delle grandi aziende guarda al potenziale di AI / ML e, nonostante investimenti significativi, assunzione di data scientist e investimenti in tempo e denaro, la scienza dei dati non riesce a portare le cose a un livello superiore.
Una delle maggiori sfide presenti in AI / ML è che la grande maggioranza dei modelli non viene implementata in produzione. Molte persone nelle aziende hanno capito che, in genere, quando si ha qualsiasi tipo di apprendimento automatico o di scienza dei dati, ci vogliono alcune settimane per sviluppare il modello, ci vuole molto più tempo quando si parla di mettere in produzione i modelli sviluppati, forse più di un anno fino alla messa in produzione del modello.
La produzione richiede molto tempo rispetto allo sviluppo di un modello ML. A volte, quando si avvia la ricerca di tutto il gasdotto ML tenendo presente la distribuzione, l’intero lavoro può andare invano. Le pipeline di distribuzione, i presupposti di distribuzione e il modo di implementazione della modellazione sono abbastanza diversi. La scienza dei dati è pronta per l’impresa?
In un sondaggio di Gartner su oltre 3000 dirigenti di livello C consapevoli dell’intelligenza artificiale, solo il 20% ha riferito di avere una produzione di IA e l’80% ha dichiarato di sviluppare, sperimentare e contemplare l’uso dell’IA. In un altro rapporto di Mckinsey, la società ha scoperto che su 160 casi d’uso di AI sottoposti a revisione, l’88% non è andato oltre la fase sperimentale.
Man mano che il mercato delle tecnologie e tecniche dell’IA matura e cresce, le aziende hanno bisogno di un accesso maggiore e migliore a modelli, applicazioni e piattaforme AI innovativi. A meno che le cose non siano in produzione, non vi è alcun ritorno sugli investimenti.
W3Schools
“I leader dell’innovazione tecnologica desiderano applicare i principi DevOps per i progetti AI / ML, ma spesso hanno difficoltà a progettare una soluzione per pipeline di automazione end-to-end attraverso la preparazione dei dati, la costruzione di modelli, l’implementazione e la produzione a causa della mancanza di processi e strumenti conosciuti -come, ” dice gli analisti di Gartner.
Problemi di gestione
La direzione di diverse società potrebbe non essere adatta ad apprendere o comprendere la scienza dei dati. Potresti avere il miglior modello al mondo, ma se il management non si rende conto del suo valore, probabilmente non entrerà in produzione. Molte di queste volte, lo stack di business intelligence e software offre un valore più chiaro a un’organizzazione rispetto ai complessi sistemi di data science. Con le spese elevate per lo sviluppo di progetti di intelligenza artificiale, molte organizzazioni sono riluttanti a investire nello staff e nel software necessari per mantenere la promessa dell’IA.
Molte volte nella scienza dei dati, i modelli non sopravvivono allo stadio del PoC e vengono scaricati a causa di varie sfide, il che si riduce a una mancanza di alfabetizzazione dei dati fondamentali a livelli senior che porta a ignorare spesso la scienza dei dati.
Sfide tecniche
Per la maggior parte, il motivo per cui i modelli non sono distribuiti dipende dalle risorse è che la tecnologia è nuova e la maggior parte delle aziende guidate dall’IT non hanno familiarità con gli strumenti e l’hardware specializzato necessari per implementare con successo i modelli di data science.
Una delle cose essenziali nella scienza dei dati è scegliere il problema giusto e inseguire la soluzione giusta. Ma, a causa di complicati dettagli tecnici, le persone rimangono intrappolate e si ritrovano un anno dopo a aggiungere valore zero. Spesso nella scienza dei dati, i progetti finiscono per essere più complicati rispetto al valore aziendale che dovrebbero produrre.
Problemi di raccolta dei dati
Secondo esperti come Bill Inmon, la stragrande maggioranza degli scienziati di dati trascorre la maggior parte del loro tempo come raccoglitori di dati, consolidando insieme diverse fonti di dati e formattando e pulendo i dati. L’approvvigionamento, la comprensione, l’organizzazione, la pulizia dei dati sono la parte più difficile della maggior parte dei progetti di IA.
La maggior parte delle organizzazioni dispone di dati estremamente precisi che rendono molto difficile mettere in produzione un modello. Non solo dati, anche le condotte ML si svolgono in modo isolato e non collegato. Ciò porta a una mancanza di collaborazione tra i membri del team.
La raccolta dei dati richiesti è un compito impegnativo. I dati esistono sempre in diversi formati, strutturati e non strutturati, file video, testo e immagini, memorizzati in vari luoghi con problemi di sicurezza e privacy unici, il che rende difficile l’implementazione dell’IA, poiché i dati devono essere consolidati e puliti. Dati non strutturati o non formattati che possono richiedere la maggior parte del tempo per la pulizia dei dati e che possono essere motivo di perdita di motivazione. Dati insufficienti che sono disponibili per l’analisi possono anche essere un fattore per progetti AI falliti.
Incompatibilità con i sistemi aziendali
I data scientist utilizzano linguaggi come Python che potrebbero non essere compatibili con i linguaggi di programmazione utilizzati nei sistemi di produzione. Per far funzionare il modello con i sistemi esistenti, ci vuole molto tempo prima che il modello venga ricodificato, testato nuovamente e testato prima della distribuzione. Questo processo può richiedere mesi e quando il modello è impostato per la produzione, può diventare superfluo.
Se un team di data science ha distribuito un modello in produzione, potrebbe aver bisogno di lavorare con un ingegnere per implementarlo in Java o in qualche altro linguaggio di programmazione per farlo funzionare per l’azienda. Ora, questo richiede uno sforzo iterativo costante poiché il modello può diventare inutile altrimenti con l’aggiunta di nuovi dati.