Blog

Comment introduire l'automatisation dans la réponse aux incidents avec Slack et PagerDuty

par Mou 24 juin 2021 | 5 minutes de lecture

Les salles de crise en cas d'incident majeur sont synonymes de stress. La pression exercée par les dirigeants, la recherche d'une aiguille dans une botte de foin, trop de bruit : tout cela pèse sur vos équipes techniques qui travaillent dur.

Les intervenants en cas d'incident ont clairement besoin d'un moyen plus efficace de collaborer avec les différentes équipes techniques. Une méthode qui minimise les interruptions et tient les parties prenantes informées tout en garantissant que chacun dispose du niveau de contexte approprié pour faire son travail.

De nombreuses organisations utilisent déjà PagerDuty et Slack ensemble pour alerter rapidement les intervenants d'astreinte, mais ne savent pas que l'intégration des deux applications peut accélérer la résolution depuis la déclaration d'incident jusqu'au post-mortem. Les équipes d’ingénierie et d’exploitation informatique sont capables de :

  • Créez rapidement des incidents avec un contexte complet pour les nouveaux intervenants
  • Optimisez le dépannage et minimisez les interruptions
  • Transformez les informations issues de l'analyse des incidents en actions immédiates

Le résultat cumulé est un temps moyen de réparation réduit, des ingénieurs moins stressés et, en fin de compte, des clients plus satisfaits. Voyons comment les utilisateurs de Slack et PagerDuty peuvent réussir à minimiser les incidents et les temps d'arrêt.

Déclencher rapidement un incident

Une fois qu'un incident est déclaré, l'intégration de PagerDuty pour Slack réduit considérablement le temps nécessaire pour commencer le dépannage. Beaucoup de ces améliorations proviennent de l’automatisation. Voici comment cela fonctionne:

  1. Les outils de surveillance et APM envoient des alertes via PagerDuty et vers divers canaux Slack, généralement dédiés à une équipe ou une application spécifique (par exemple, #team-web-app). Alternativement, votre équipe peut créer un canal d'alerte unique (par exemple, #alerts-infra).
  2. Une personne capable d'évaluer correctement l'impact et la gravité de l'incident déclarera manuellement l'incident et fournira un contexte supplémentaire au groupe. Cela peut être facilement effectué dans le canal Slack des alertes en cliquant sur un bouton.
  3. PagerDuty lance automatiquement un nouveau canal d'incident facilement consultable par date ou par identifiant unique (par exemple, #incident-___) et invite tous les intervenants d'astreinte, qui reçoivent un ping via Slack et d'autres méthodes (comme les SMS). Un appel Zoom est automatiquement lancé et un message (avec des liens vers le canal d'incident spécifique et l'appel Zoom) est automatiquement envoyé à un canal #incidents général, garantissant ainsi que les non-répondants ont également une visibilité.

Simplifier le dépannage

Les incidents sont souvent complexes et s'étendent sur plusieurs systèmes. Les mesures d'observabilité, les traces et les journaux offrent de nombreuses perspectives différentes sur la cause profonde. Une collaboration efficace entre les équipes et la réduction du bruit sont essentielles pour résoudre les incidents rapidement et correctement. À cette fin, voici trois façons dont Slack peut aider les intervenants à se mettre rapidement au courant tout en minimisant les distractions pour leurs pairs :

  1. Lorsque de nouveaux intervenants rejoignent le canal d'incident dans Slack, ils peuvent simplement faire défiler vers le haut et voir l'historique complet de ce qui a déjà été exploré, exclu et accompli, sans interrompre les enquêtes en cours. Toutes les mises à jour de statut, messages et documents clés sont soigneusement épinglés en haut du canal pour une référence rapide. Les nouveaux arrivants se mettent rapidement à niveau, les dépanneurs restent concentrés sur la résolution et les commandants d'incident gèrent le processus d'incident, pas les demandes individuelles.
  2. Les threads de discussion au sein du canal sont lancés pour des conversations rapides et détaillées sur des sous-thèmes tels que la dégradation des performances ou l'infrastructure cloud. En organisant ces discussions plus approfondies, les intervenants peuvent mener des enquêtes parallèles tout en gardant le canal principal concentré sur les mises à jour majeures. Lorsqu'une découverte ou une décision clé est prise dans un fil de discussion, elle est publiée sur le canal pour que tout le monde puisse la voir.
  3. Les émojis peuvent être amusants, mais ils sont également incroyablement rapides et informatifs pour recueillir des commentaires et des approbations lors d'incidents. Pour communiquer de courtes notes sans créer de bruit inutile, les intervenants peuvent simplement marquer les messages avec des émojis. Les conventions courantes incluent 👀 pour « Je suis en train d'examiner la question », 👍 pour « Je suis d'accord » et ✅ pour « J'en ai fini avec ça ».

Transformez les analyses d'incidents en actions instantanées

Pour être efficaces, les analyses d'incidents nécessitent la participation de plusieurs équipes, ce qui signifie qu'elles sont, au mieux, difficiles à organiser. Pire encore, lorsque des analyses sont menées, le manque de certitude conduit souvent à des suppositions, des préjugés et des reproches. Voici comment cela devrait se dérouler :

  1. En plein cœur d'un incident, les intervenants peuvent marquer les messages avec 📮 pour signaler une idée ou une action à suivre pendant l'examen de l'incident. Une fois que tout est clair, un examinateur d'incident peut simplement rechercher n'importe quel message marqué avec cet émoji particulier, dans ce canal particulier. Votre équipe peut également créer un flux de travail simple qui publie automatiquement ces messages sur un canal dédié (par exemple, #inc-review-insights). Un fil de discussion ou même un canal peut être lancé pour discuter de chaque idée et s'assurer qu'elle est prise en compte.
  2. Pour mener à bien l'examen, un examinateur d'incidents analyse le canal d'incidents pour voir une piste d'audit horodatée indiquant exactement ce qui s'est passé, les décisions prises, les personnes impliquées et les mesures d'observabilité. Les réunions d'examen des incidents sont simples et orientées vers l'action, sans deviner ni discuter de la vérité.
  3. Chaque canal d'incident est archivé et conservé afin que n'importe qui (même les nouveaux employés) puisse rapidement rechercher et référencer si un problème similaire se produit à l'avenir.

Passer d'une gestion réactive des incidents à une gestion proactive

Un processus de gestion des incidents efficace n'est pas compliqué ou difficile à configurer, mais il peut représenter un changement important pour les équipes d'exploitation et d'ingénierie informatiques. Faites le premier pas simple et installez l'application PagerDuty pour que Slack automatise la création de canaux d'incidents et les invitations des intervenants d'astreinte. À partir de là, vous pouvez gérer votre salle de guerre virtuelle comme vous le faites aujourd'hui et publier les décisions clés et les résumés dans le canal où toutes les parties prenantes et les intervenants ont une visibilité.

À mesure que vous devenez plus à l’aise pour collaborer en temps réel avec Slack, vous pouvez progressivement intégrer davantage de communications et d’équipes (même de parties prenantes commerciales) dans le processus. Bientôt, vous réduirez considérablement le MTTR et les temps d’arrêt avec PagerDuty et Slack.

Approcher quelqu'un chez Slack pour un plan personnalisé qui transformera la façon dont vous gérez les incidents avant que le prochain « gros incident » ne se produise.