Blog

Écoutez un appel enregistré en réponse à un incident

par Georges Miranda 20 juin 2019 | 6 minutes de lecture

Le Processus de réponse aux incidents PagerDuty est un document détaillé qui fournit un cadre sur la façon de structurer votre processus de réponse aux incidents. Mais il est parfois utile de comprendre comment ces concepts apparemment abstraits se manifestent dans des scénarios réels. Vous pouvez désormais entendre un enregistrement d'appel incident basé sur un véritable incident PagerDuty .

En raison de la nature des pratiques de réponse aux incidents, le guide de processus que nous publions est rempli de détails très explicites concernant une variété de situations. Ce niveau de détail est formidable lorsque vous vous retrouvez à décortiquer les nuances de scénarios complexes. Mais pour quelqu'un qui n'a jamais participé à une panne technique, le niveau de profondeur fourni peut sembler un peu écrasant sans un contexte de base sur lequel se concentrer. Qu'est-ce qu'un appel d'incident ? À quoi ressemble-t-il et comment les gens interagissent-ils ?

Quel que soit votre niveau d’expérience en matière de réponse aux incidents en temps réel, disposer d’un contexte partagé peut s’avérer utile pour développer vos propres processus de réponse au sein de vos équipes. Pour vous aider, nous avons décidé de partager un exemple de ce à quoi ressemblent nos appels de réponse aux incidents chez PagerDuty.

https://www.youtube.com/watch?v=vw6I5DYWkNA

L'appel enregistré est une reconstitution d'un incident majeur réel survenu chez PagerDuty en janvier 2017. Certains noms et détails d'identification ont été modifiés dans l'intérêt de la vie privée, mais l'incident reste par ailleurs largement non expurgé.

Dans un souci de concision, certains détails ont été modifiés ou omis de la reconstitution. Bien que cet incident ait duré environ 79 minutes, l'audio de l'appel a été compressé à un peu plus de 26 minutes. Lorsque vous regardez la vidéo, vous devez prendre note des horodatages des commentaires transcrits. Les horodatages vous donneront une idée du temps écoulé entre les développements. Il n'est pas inhabituel qu'il y ait un silence pendant un appel d'incident pendant que les intervenants s'efforcent de résoudre un problème.

Pour les nouveaux venus dans le processus de réponse aux incidents, quelques diapositives expliquant les différents rôles des intervenants tout au long de l'appel ont été ajoutées pour un contexte supplémentaire. Cet enregistrement est destiné à compléter, et non à remplacer, le Guide de réponse aux incidents Avant de mettre en pratique les compétences démontrées dans cette vidéo ou de modifier quoi que ce soit à vos propres processus existants, assurez-vous de consulter le guide de réponse aux incidents dans son intégralité, car il fournit un niveau de détail critique et supplémentaire qui n'est pas contenu dans cet enregistrement.

Choses à surveiller

Cet incident a été choisi pour la reconstitution en raison de sa complexité et des nombreuses étapes différentes d'un incident qui ont été démontrées. Il a nécessité une collaboration interfonctionnelle de plusieurs équipes différentes, présentait un problème difficile à diagnostiquer et contenait des exemples courants d'actions nécessaires, comme appeler les intervenants qui n'étaient pas de garde. De légères modifications ont été apportées pour mettre en évidence certaines de ces actions au fur et à mesure qu'elles se produisaient.

PagerDuty Formation en réponse aux incidents fournit une couverture approfondie du rôle d'un commandant d'incident (IC), ainsi que de nombreux conseils sur la façon de gérer un incident. Écoutez comment le IC crée un espace pour que les intervenants puissent résoudre l'incident : le IC fait avancer l'incident, obtient un consensus avant d'agir et ajuste le cap en fonction des commentaires.

Le rôle du scribe est clairement illustré par le texte qui accompagne la vidéo. Un scribe n'est pas un sténographe. Son rôle n'est pas de retranscrire tout ce qui se dit pendant l'appel ; son travail consiste plutôt à noter les événements importants qui pourraient être utiles dans le cadre d'une autopsie. Regardez comment le scribe capture les détails pertinents qui seront utiles plus tard.

Le rôle de l'adjoint est d'aider le commandant d'incident à rester concentré sur l'incident en assumant toutes les tâches qui pourraient créer une distraction. Dans cet incident, notre IC expérimenté a délégué des tâches à l'adjoint et a également surveillé le temps pour les tâches à durée limitée. Cependant, il ne serait pas inhabituel qu'un adjoint propose de retirer certaines tâches du travail de l'IC ou d'agir comme chronométreur.

L'agent de liaison en communications fournit des mises à jour aux parties prenantes externes et internes. Par souci de brièveté, l’incident enregistré se concentre sur la manière dont les communications clients externes sont générées. Dans la pratique chez PagerDuty, l'agent de liaison en communication génère automatiquement des notifications internes aux parties prenantes à partir de notre produit. Si votre propre système de réponse aux incidents ne le permet pas, l'agent de liaison client gérera le processus de la même manière que les notifications externes sont générées.

À propos de l'incident

L'incident à l'origine de cet enregistrement reconstitué s'est produit le 6 janvier 2017. Il a eu pour conséquence qu'aucune notification n'a été envoyée en dehors de notre accord de niveau de service (SLA). Les clients ont été affectés de trois manières :

  1. 500 erreurs ont été constatées sur la page Détails de l'incident (1 % des clients)
  2. J'ai rencontré un message d'erreur sur la page /incidents en cliquant sur le lien « Afficher les détails » (2 %)
  3. Erreurs rencontrées dans l'application Android PagerDuty (1 %)

L'autopsie de l'incident est disponible sur le site Page d'état du PagerDuty . Vous remarquerez dans le autopsie L'incident a duré environ 80 minutes. Si vous examinez les horodatages dans l'enregistrement vidéo, vous verrez que le temps d'appel écoulé n'est que d'environ 50 minutes. Cela est dû au fait que l'incident a été détecté et géré comme un incident mineur pendant environ 30 minutes avant d'être transformé en incident majeur, nécessitant ainsi une réponse coordonnée plus importante.

Comment utiliser cet enregistrement

La plupart des incidents ne permettent pas de démontrer toutes les facettes du système de réponse aux incidents. Les incidents sont imprévisibles et le processus de réponse est destiné à vous fournir les outils en temps réel dont vous aurez besoin pour résoudre efficacement un incident. Plutôt que de mettre en scène une œuvre de fiction, nous avons décidé qu'il était préférable de partager un incident réel avec autant de transparence que possible.

Cet enregistrement d'incident n'est pas destiné à servir de guide définitif et ne couvre que certaines des considérations auxquelles vous pourriez être confronté lorsque vous faites face à un incident réel. Cependant, lorsqu'il est utilisé en tandem avec notre Guide de réponse aux incidents, il démontre comment ces principes éventuellement abstraits se manifestent dans des scénarios réels. Utilisez cet enregistrement en tandem avec le guide pour de meilleurs résultats. Reportez-vous au guide pour plus de détails et reportez-vous à l'enregistrement pour savoir comment les principes du guide sont appliqués.

Comme toujours, si vous avez des questions à ce sujet et que vous souhaitez en discuter davantage, n'hésitez pas à nous contacter sur le Forum communautaire PagerDuty . Nous aimerions recevoir de vos nouvelles!