• PagerDuty
    /
  • Blog
    /
  • AIOps
    /
  • AIOps et automatisation : une conversation avec Carlos Casanova, analyste principal chez Forrester

Blog

AIOps et automatisation : une conversation avec Carlos Casanova, analyste principal chez Forrester

par Heath Newburn 9 juin 2023 | 6 minutes de lecture

Au début de 2023, j'ai eu une excellente conversation avec Carlos Casanova , un analyste principal de Forrester, lors d'un récent webinaire sur la manière dont l'AIOps peut contribuer à un changement organisationnel réussi. D'après notre conversation, Carlos a divisé le marché de l'AIOps en deux camps : centré sur la technologie (principalement les acteurs de l'APM/Observabilité) et centré sur les processus. PagerDuty est une solution centrée sur les processus exploitant plusieurs technologies.

Grâce aux solutions AIOps centrées sur les processus, les entreprises bénéficient d'un contexte et d'informations supplémentaires sur leurs données. Cela réduit le temps d'action, contribue à améliorer la qualité des données, optimise la prise de décision, améliore l'efficacité du routage et des notifications et, en fin de compte, augmente la valeur des services fournis par l'informatique.

Cette capacité à augmenter la vitesse avec un contexte plus large réduit le temps nécessaire aux incidents critiques. Il est important de noter que le routage initial peut être effectué vers un opérateur virtuel. Cela signifie que l'automatisation pourrait générer des informations de triage/débogage supplémentaires ou éventuellement effectuer une correction avant d'engager un intervenant humain.

Tout au long de notre conversation, Carlos et moi avons constamment évoqué le thème de la création d'un meilleur contexte pour les intervenants. Lorsque je lui ai demandé quelles capacités il considérait comme les plus importantes pour résoudre les principaux cas d'utilisation d'AIOps, il a répondu : « L'identification rapide de la corrélation entre des alertes disparates réduit considérablement le bruit auquel les individus sont confrontés. Fournir à toutes les personnes concernées ce signal de données propres est essentiel pour améliorer les opérations. Grâce à ces données, les individus peuvent plus facilement et plus rapidement obtenir un aperçu de ce qui se passe réellement dans l'environnement. Ils peuvent ensuite déterminer rapidement les mesures à prendre, décider qui doit être impliqué pour une correction plus rapide et réduire la quantité d'efforts nécessaires, ce qui libère du temps pour d'autres événements et alertes.

Mais les équipes ont souvent du mal à démarrer. Nous avons convenu que le coût de l’attente et de la planification ne vaut probablement pas le coût du démarrage et de l’itération. Il a ajouté : « L’initiative globale peut sembler intimidante, mais il existe des gains rapides réalisables. Il n’est pas recommandé d’attendre. Commencez par de petits efforts tactiques qui se répercutent sur vos objectifs stratégiques plus vastes et à plus long terme pour montrer les progrès, démontrer la valeur et créer une dynamique. »

La rapidité est également un thème récurrent : il faut rapidement obtenir le contexte, réagir rapidement grâce à l’automatisation et lancer le processus immédiatement pour constater ces gains. Mais nous savons aussi que la pression n’a cessé de croître.

Les équipes ont été affectées par la crise économique et le ralentissement économique. Lorsque je lui ai demandé comment les équipes pouvaient accroître leur efficacité et mesurer leur réussite, nous avons évoqué l’automatisation comme étant la clé du succès.

Carlos a répondu : « Les scénarios simples qui se produisent souvent sont de bons candidats pour l’automatisation de tout ou partie de leur correction. L’automatisation totale ou même partielle de cinq ou dix scénarios simples libère instantanément beaucoup de temps pour que les individus puissent se concentrer sur les scénarios plus complexes que les organisations pourraient ne pas se sentir à l’aise d’automatiser. »

Mais nous devons également reconnaître la formation, assaut et normalisation Avant de nous lancer dans des projets, nous devrons accepter les changements que nous apporterons à notre façon de mesurer et de penser le succès.

« L’AIOps peut également permettre aux services informatiques d’alléger les charges de travail pour aider leurs équipes de livraison à « faire plus avec moins ». Il est important de se rappeler que ces changements invalident les mesures existantes. Vous devez établir de nouvelles bases de référence, car les individus n’effectueront plus les actions simples et de bas niveau. Par exemple, un technicien résout manuellement 300 incidents par semaine. Trente sont simples et peuvent être facilement corrigés de manière automatisée. Le MTTR de ces incidents peut diminuer de 90 %. Cependant, l’élimination des incidents simples ne permet au technicien de prendre en charge que 10 incidents de complexité moyenne à leur place. Cela signifie que le technicien traitera 20 incidents de moins par semaine. Le MTTR moyen du technicien augmentera et les incidents resteront plus longtemps dans sa file d’attente, avec un ratio plus élevé d’incidents de complexité moyenne et élevée », a déclaré Carlos.

L’une des questions les plus courantes que je me pose est de savoir comment commencer. Traditionnellement, l’AIOps est considérée comme une initiative pouvant durer plusieurs années. Il peut être intimidant de commencer le voyage avec autant d’incertitudes et de changements. PagerDuty a considérablement simplifié le processus en créant un processus de corrélation d'événements en un clic afin que les équipes puissent voir immédiatement la valeur, mais ce n'est pas la fin du voyage vers l'AIOps.

Carlos a partagé ses idées sur la façon de démarrer et de faire face à la réduction des dépenses d'exploitation disponibles. « Les budgets sont toujours un défi, mais dans une large mesure, vous pouvez surmonter cet obstacle en démontrant et en articulant clairement la valeur de l'AIOps. Développez un récit pour votre analyse de rentabilisation qui parle de la valeur des expériences améliorées avec l'organisation. Démontrez comment un routage et des notifications améliorés avec des données contextuellement pertinentes améliorées permettent au même personnel de gérer davantage de charges de travail avec moins d'efforts. Expliquez comment les modèles et les tendances permettent aux ressources de niveau inférieur d'exécuter des actions plus avancées car elles reçoivent des actions suggestives basées sur les membres du personnel les plus expérimentés et les plus expérimentés. Tout cela aide les organisations à faire face aux défis économiques auxquels elles sont actuellement confrontées tout en améliorant la qualité des produits et des services qu'elles fournissent. Il est important pour les organisations de démontrer que la solution choisie a un délai de rentabilisation rapide. Par exemple, pour améliorer l'expérience utilisateur, dans quel délai la solution peut-elle fournir des visualisations complètes des transactions pour aider le personnel à résoudre une panne ? Pour offrir un temps de réponse plus rapide, la solution doit-elle analyser l’environnement et corréler les nouvelles alertes à des incidents singuliers pouvant être traités immédiatement ou de manière automatisée ? Le délai de rentabilisation est essentiel en période de crise économique.

Pour bon nombre de nos clients, le délai de rentabilisation peut être encore plus important que le retour sur investissement. La rapidité est ce qui permettra de distinguer les gagnants des perdants dans les batailles numériques. La rapidité avec laquelle nous pouvons traiter les problèmes inévitables et apporter des améliorations est ce qui distingue les équipes de leurs concurrents et offre une excellente expérience client.

Alors que les dirigeants d'I&O doivent faire face à l'incertitude économique qui les oblige à réduire les coûts et à faire plus avec moins, ils ont besoin de nouveaux outils et de nouvelles approches qui les aident à faire évoluer et à optimiser leurs ressources existantes. AIOps offre aux équipes un moyen fiable de traiter de gros volumes de données et d'événements, de gérer le routage et la réponse en temps réel et d'aider les équipes à résoudre les incidents plus rapidement. Si vous souhaitez savoir comment relever ces défis pour votre entreprise, Regardez ce webinaire pour entendre le reste de ma conversation avec Carlos.