Blog

PagerDuty + Atlassian : adopter une réponse moderne aux incidents dans la foulée

par Dave Cliffe 31 mai 2018 | 5 minutes de lecture

Pour répondre aux demandes croissantes des clients et à l’attente d’une « disponibilité en temps réel, à tout moment », les opérations numériques modifient la façon dont les gens travaillent. L’une des tendances macroéconomiques les plus intéressantes est de constater l’impact que cela a non seulement sur vos équipes d’exploitation et de développement informatiques, mais également sur la manière dont l’ensemble de l’entreprise s’implique dans l’augmentation du niveau de réactivité vis-à-vis des clients. Pour le meilleur ou pour le pire, la réponse aux incidents en est un excellent exemple, à la fois en raison de la pression temporelle impliquée et des efforts déployés par l’ensemble de votre organisation (y compris le support client, les cadres, les communications/le marketing, les ventes, etc.) pour formuler une réponse efficace. Les incidents majeurs sont un problème commercial, pas un problème de produit. Une bonne communication et une bonne collaboration sont essentielles pour réponse moderne aux incidents .

Atlassian comprend cette réalité. En plus de notre ensemble déjà riche d'intégrations avec JIRA, HipChat et StatusPage, nous sommes ravis d'annoncer la disponibilité générale de notre extension PagerDuty Stride. Foulée est la solution complète de communication d'équipe, idéale pour accroître la visibilité au sein de votre équipe lorsqu'un incident PagerDuty est déclenché. Mais le meilleur, c’est la manière dont Stride peut vous aider à aligner votre organisation en temps de crise, comme lors d’un incident majeur. En particulier, il offre un large éventail de capacités aux commandants d'intervention, aux adjoints et aux scribes pour mener une réponse efficace aux incidents. (Vous n'êtes pas familier avec Incident Command ? Lisez rapidement nos meilleures pratiques : https://response.pagerduty.com/ .)

Voici quelques-unes de nos fonctionnalités Stride préférées pour Commandement des interventions .

La barre latérale PagerDuty Stride

Bien que PagerDuty ait l'honneur d'être associé à la création de ChatOps (crédit à GitHub), l'une des façons les plus courantes d'abuser de ChatOps est de forcer les nouveaux intervenants à lire l'intégralité du journal de discussion afin de se tenir au courant des détails entourant un incident. La barre latérale de Stride fournit un endroit pour conserver un instantané des informations les plus pertinentes sur l'incident. Les conversations détaillées liées à l'incident se déroulent dans la salle, tandis que l'incident actif dans la barre latérale contient un résumé de l'impact, des événements, des décisions clés et des actions qui ont été prises.

Ce type d'informations est exactement ce que le Scribe doit capturer et est parfait à la fois pour un rattrapage en temps réel et pour compiler la chronologie post-mortem ultérieurement. Terrain d'entente est un concept clé dans les communications et est particulièrement important pour la réponse aux incidents. Les commandants d'incident sont également formés pour faire régulièrement ce genre de résumés (souvent verbalement lors de l'appel vocal) afin de maintenir ce terrain d'entente. Arrêtez de forcer les gens à « lire le journal de discussion » pour se mettre à jour ! (Dan Slimmon d'Exosite a un discours fantastique de Velocity Santa Clara 2016 sur ce sujet précis si vous êtes intéressé.)

Décisions de foulée

L'un des principes clés d'une réponse efficace aux incidents est que toute l'autorité de décision soit donnée au commandant de l'incident. Cela est particulièrement important lors d'un incident majeur, où des décisions plus risquées peuvent être nécessaires afin d'atténuer l'impact sur le client. Un exemple que nous utilisons dans notre formation : vous ne redémarrerez généralement pas tous vos serveurs Web en même temps, car cela entraînerait des temps d'arrêt, mais lorsque tous vos clients sont déjà impactés d'une autre manière, opter pour cette solution plutôt que pour un redémarrage progressif peut être la bonne décision.

Stride Decisions permet d'enregistrer facilement ces décisions difficiles en ligne au fur et à mesure que la réponse est rédigée. Ces types de points de décision sont un excellent moyen de mettre à jour les points communs au sein de votre équipe de réponse. N'oubliez pas : bien que vous ayez l'autorité pour prendre les décisions, vous devez toujours tirer parti de l'expertise de vos experts en la matière (SME). Vous n'avez pas besoin d'approbation pour vos décisions, mais demander « toute objection sérieuse » avant d'aller de l'avant est toujours une bonne idée pour éviter tout biais rétrospectif.

Actions de foulée

Il peut être difficile de rester organisé pendant l'intensité du commandement des incidents. Une fois qu'une décision a été prise, une variété d'actions s'ensuit souvent. Les actions Stride sont parfaites pour suivre les différentes enquêtes et expériences nécessaires pour comprendre l'ampleur de l'impact sur le client et comment l'atténuer potentiellement.

Pour ce type d’actions urgentes, nous recommandons également fortement trois points :

  1. Attribuez-leur, soit à une personne par son nom (« Dave Cliffe ») soit par sa fonction (« Network on-call »).
  2. Limitez-leur le temps imparti, afin que la personne sache combien de temps avant de revenir avec plus d'informations (cela contribue également à susciter implicitement un certain sentiment d'urgence).
  3. Recevoir un accusé de réception, afin que le commandant de l'incident sache qu'il a compris la tâche.

Ne négligez pas l'autopsie

Une fois le chaos apaisé et l'impact sur le client atténué, l'une des dernières tâches que doit effectuer un commandant d'incident est d'assigner l'autopsie. N'oubliez pas que chaque incident est une opportunité d'apprentissage, et pas seulement en ce qui concerne les aspects techniques de vos systèmes. Comprendre la façon dont vos équipes communiquent peut contribuer à rendre les efforts de réponse futurs encore plus efficaces, alors révisez régulièrement votre processus de réponse aux incidents. Intégration PagerDuty JIRA fournit également un excellent moyen de suivre les éléments d’action identifiés par votre équipe d’intervention.

La réponse moderne aux incidents nécessite une nouvelle approche, qui englobe la propriété distribuée tout en permettant une réponse précise, automatisée et collaborative qui s'améliore grâce à l'itération et à l'apprentissage. En utilisant l'extension PagerDuty Stride de concert avec les intégrations JIRA et StatusPage, PagerDuty et Atlassian fournissent une excellente plate-forme pour des opérations efficaces. Essayez-le et dites-nous ce que vous en pensez !

 

Ressources additionnelles:

  • Premiers pas avec Stride
  • Formation moderne sur la réponse aux incidents
  • Bonnes pratiques en matière de réponse aux incidents