Blog

Dynamisez la réponse aux incidents grâce à l'automatisation des cahiers d'exploitation

par PagerDuty 10 août 2021 | 4 minutes de lecture

La pandémie mondiale est estimé ont accéléré leur transformation numérique d'au moins sept ans, et cela ne montre aucun signe d'arrêt. En fait, les entreprises investissent encore plus dans les expériences pilotées par logiciel. Une récente étude de Gartner prévision indique que les dépenses informatiques mondiales augmenteront de 8,4 % pour atteindre 4,1 billions de dollars en 2021, une grande partie de ces dépenses étant consacrées à des services critiques destinés aux clients.

Le point essentiel à retenir est que les revenus et la concurrence en ligne n’ont jamais été aussi importants et que les services numériques d’une organisation doivent être disponibles 24 heures sur 24. L’expérience est primordiale et la disponibilité est un facteur clé. Cependant, les incidents numériques sont inévitables. La rapidité avec laquelle les entreprises peuvent résoudre un problème et minimiser l’impact sur les résultats et l’expérience client devient donc le facteur de différenciation clé.

Aujourd'hui, de nombreuses équipes ITOps et DevOps dépendent encore de méthodes manuelles et réactives. processus de réponse aux incidents . Mais à mesure que les environnements informatiques deviennent de plus en plus complexes, cette approche n'est plus tenable. Les équipes ont besoin d'un moyen de rationaliser la réponse aux incidents et de maintenir les services en permanence, et ce moyen passe par l'automatisation.

Adopter une approche moderne de réponse aux incidents

Le recours à une réponse manuelle et réactive aux incidents augmente le temps moyen de reconnaissance et de résolution (MTTA/MTTR) et gaspille de précieuses heures de travail. Historiquement, l'approche consistait à s'attaquer au problème avec davantage d'intervenants, ce qui se traduit souvent par des dizaines, voire des centaines de membres de l'équipe en réunion générale. Cela se produit parce que les intervenants ne disposent pas des informations dont ils ont besoin pour agir lorsqu'un incident se produit. Ils doivent être en mesure de répondre rapidement à une série de questions pour aller au fond d'un incident et le résoudre. Des questions telles que : qu'est-ce qui a changé dans l'environnement ? À qui appartient ce service ? Et quels signaux contiennent les indices ?

Dans toute organisation, les équipes utilisent des outils, des scripts et des commandes manuelles pour répondre à ces questions. Cependant, ces flux de travail n'existent souvent que dans la tête de quelques experts en la matière ou nécessitent une intervention manuelle pour être exécutés. De même, là où les solutions de gestion des services informatiques (ITSM) ont joué un rôle dans la gestion des tâches non urgentes et en file d'attente, ces outils ne sont pas conçus pour le travail urgent et en temps réel d'un monde toujours connecté.

Ces approches traditionnelles sont représentatives des organisations qui n’ont pas encore mûri leur approche des opérations numériques. La bonne nouvelle pour les dirigeants chargés de protéger les expériences et les résultats financiers est qu’il existe un moyen de changer le discours et accélérer la maturité opérationnelle : Automatisation du livre d'exécution.

La voie vers des incidents plus courts et moins d’escalades

L'automatisation des runbooks est le processus de documentation de tous les scripts, outils, appels d'API ou procédures manuelles écrites mentionnés ci-dessus dans des runbooks. Il s'agit des méthodes utilisées par les équipes pour effectuer des tâches répétitives et résoudre des incidents, tels que le redémarrage des serveurs, la copie d'artefacts, la manipulation de fichiers, etc. L'automatisation des runbooks normalise la réponse aux incidents en capturant et en automatisant ces méthodes et en permettant leur délégation et leur exécution par n'importe qui.

Avec Runbook Automation, les intervenants peuvent exécuter des workflows automatisés pour les activités de diagnostic et de correction. En résolvant directement les problèmes connus, ils réduisent le volume d’incidents qui sont remontés tout en accélérant considérablement la résolution. Mais pour réaliser ces avantages et passer d’une approche réactive à une approche préventive, il faut un changement de culture et de plateforme. Comme le montre l’image (fig. 1), atteindre la maturité des opérations numériques pour permettre l’automatisation de Runbook est une évolution en plusieurs étapes.

Fig. 1

Pour réussir leur évolution, les organisations doivent commencer à petite échelle afin de pouvoir améliorer leur capacité d’automatisation au fur et à mesure qu’elles apprennent et réalisent de nouveaux bénéfices. Cela nécessite une approche progressive de type « ramper, marcher, courir » (fig. 2).

  • Crawl :Automatisez des actions simples en une seule étape sans impact sur les performances ou la disponibilité du service et qui nécessitent peu de traitement.
  • Marcher :Automatisez les séquences en plusieurs étapes qui fournissent des diagnostics plus approfondis et corrigent de nombreux problèmes courants, voire récurrents.
  • Courir :Automatisez des actions complexes qui peuvent avoir un impact significatif sur les performances ou la disponibilité et impliquent généralement un accès privilégié pour de nombreuses étapes entre plusieurs systèmes.

fig. 2

Nous aidons les organisations sur ce chemin avec notre Rundeck par PagerDuty solution. Rundeck augmente la réponse aux incidents existante avec Runbook Automation. Il rend l'automatisation, les scripts et les commandes existants plus sécurisés, vérifiables et plus faciles à exécuter. Avec Rundeck comme hub central exécuté via PagerDuty, les outils et l'infrastructure peuvent être connectés et les tâches nécessaires à la résolution des incidents peuvent être déléguées en toute sécurité aux intervenants via le libre-service.

La puissance combinée de Rundeck et PagerDuty

L'utilisation conjointe de Rundeck et de PagerDuty offre aux organisations un moyen puissant d'améliorer davantage le MTTA et le MTTR, de protéger les revenus, d'augmenter la productivité opérationnelle et de réduire l'épuisement professionnel. La puissance combinée des deux permet de résoudre les incidents en quelques minutes (fig.3). Si vous souhaitez en savoir plus sur la façon de démarrer avec Runbook Automation, téléchargez notre nouvel eBook ici .

figure 3.

Pour en savoir plus sur Rundeck by PagerDuty et pour planifier une démo, visitez : https://www.rundeck.com/see-demo .