Se sei un CIO, VP di operazioni IT o qualche altro tipo di leader IT, sei costantemente sotto pressione per garantire che i sistemi IT operino alla massima efficienza. I sistemi devono soddisfare le crescenti aspettative del livello di servizio in termini di prestazioni, disponibilità e sicurezza. In effetti, probabilmente stai già anticipando che questa sfida aumenterà solo. Dopotutto, è necessario gestire le carenze di competenze e avere il compito di supportare un numero crescente di iniziative IT come migrazioni del cloud, trasformazione digitale, integrazioni M & A e altri progetti strategici. Per affrontare queste sfide, è necessario pensare a sfruttare le “pratiche successive”, non le migliori pratiche. Lasciatemi spiegare.

Il ritmo del cambiamento nell’ambiente aziendale sempre più digitalizzato di oggi significa che ciò che ha funzionato in passato (come codificato dalle “migliori pratiche”) non andrà sempre più avanti. Ciò ha dato origine al concetto delle prossime pratiche. Le pratiche successive non si concentrano sul miglioramento dei processi esistenti poiché i processi esistenti stanno diventando sempre più obsoleti a causa delle tecnologie di trasformazione. Invece, si occupano dei modi migliori per ripensare i tuoi processi per il futuro, sfruttando tecnologie di trasformazione come l’intelligenza artificiale (AI) e l’apprendimento automatico (ML) per rendere più intelligenti i tuoi processi.

Permettetemi di darvi tre esempi interconnessi di come le prossime pratiche basate sull’intelligenza artificiale possono essere applicate al processo di rilevamento e risoluzione degli incidenti di sistema. Se applicati correttamente, risolveranno i limiti nella gestione della configurazione corrente e nel contempo trasformeranno il processo in un modo che consenta sia di soddisfare gli obiettivi a livello di servizio oggi sia di creare scalabilità per domani.

Gestire la fatica dell’avviso

Il primo passo per mantenere in funzione i sistemi IT è il monitoraggio del sistema. Oggi, il tuo team riceve un avviso ogni volta che uno dei tuoi strumenti di monitoraggio rileva qualcosa che supera una soglia. Poiché il tuo team fa affidamento su un miscuglio di strumenti di monitoraggio legacy e non intelligenti per controllare il tuo panorama crescente di sistemi e livelli di stack di soluzioni, il tuo team è inondato di allarmi, la maggior parte dei quali probabilmente ignorano riflessivamente. Ciò nonostante il rischio di ignorare avvisi consequenziali o di agire prematuramente sugli avvisi sbagliati, uno dei quali può compromettere la produttività della squadra ei livelli di servizio.

Invece, oggi hai l’opportunità di utilizzare AI / ML per rilevare in modo intelligente le anomalie, in modo che il tuo team venga allertato solo quando è necessario occuparsi di qualcosa di importante. È possibile utilizzare AI e ML per apprendere e definire il comportamento del sistema e definire e regolare automaticamente le soglie dinamiche che attivano le notifiche in base alle deviazioni statistiche dal comportamento previsto. L’intelligenza artificiale può anche essere utilizzata per stabilire le priorità e valutare queste anomalie, considerando fattori quali l’ampiezza dell’anomalia, la frequenza e il raggruppamento. Ciò consente al tuo team di gestire eccezionalmente, dando tempo e attenzione solo a vere anomalie che meritano un’indagine.i

Il tuo team è anche sfidato a isolare la causa principale dei problemi di prestazioni del sistema, che è essenziale per applicare rapidamente le correzioni e far funzionare di nuovo le cose. L’isolamento delle cause di root è straordinariamente difficile oggi perché non esiste un modo efficiente e ripetibile per dare un senso all’enorme volume e alla varietà delle prestazioni del sistema e dei dati di comportamento provenienti dai numerosi strumenti di monitoraggio. Inoltre, l’esperienza del tuo team si trova in diversi silos organizzativi (inclusi i tuoi partner di outsourcing), quindi si ritrovano a fare affidamento sulla conoscenza tribale, rendendo difficile guidare rapidamente a una visione olistica e avere una grande fiducia nell’analisi.

Al contrario, AI / ML può automaticamente dare un senso ai dati per contestualizzare l’analisi degli incidenti e aiutare a isolare le cause alla radice in modo rapido e minimizzare il ricorso continuo alle conoscenze tribali specialistiche. AI / ML è molto bravo a restringere le probabili cause alla radice applicando algoritmi per determinare la correlazione metrica, la co-occorrenza dell’incidente e gli effetti di stagionalità basati su serie temporali e analisi di log. Inoltre, può essere utilizzato per generare una serie limitata e curata di azioni di riparazione raccomandate.

Eliminazione della prova e riparazione degli errori

Infine, il tuo team è costretto a seguire un approccio rigoroso per tentativi ed errori per risolvere gli incidenti. Questo è estremamente dispendioso in termini di tempo e non si presta a miglioramenti continui e risultati più efficaci e prevedibili attraverso l’apprendimento sistematico. Invece, è possibile combinare AI / ML con tecnologie di collaborazione per rimediare in modo proattivo agli incidenti. Il contenuto della collaborazione (pensa ai messaggi di chat scambiati dal team in merito agli incidenti) può, a sua volta, essere estratto per consentire l’apprendimento a ciclo chiuso, assicurando che le informazioni su ciò che ha funzionato e ciò che non è stato riconsegnato nella knowledge base in modo che le raccomandazioni automatiche migliorare nel tempo. Non è nemmeno difficile credere che questo possa costituire la base per un futuro sistema di “auto-guarigione”.

Conclusione

Le pratiche successive, come l’applicazione della tecnologia AI e ML ai processi di gestione dei sistemi IT mission-critical, non si limitano a ottimizzare i processi correnti in modo incrementale. Trasformano il modo in cui gestisci le tue operazioni IT e reimpostano le aspettative su ciò che è possibile.

Di ihal

Lascia un commento