Blog

Les quatre accords de réponse aux incidents

par Matt Stratton 4 mars 2019 | 10 min de lecture

(Cet article de blog est inspiré de la conférence que je donnerai à Conférence DevOps Talks à Melbourne et Conférence DevOps Talks Auckland . Espérons vous y voir!)

Avez-vous déjà participé à un de ces appels téléphoniques avec plusieurs autres êtres humains où vous vous criez dessus en essayant de résoudre un problème alors qu'il y a un problème qui doit être résolu immédiatement ? Avez-vous vraiment apprécié cette expérience et voulez-vous la revivre tout le temps ?

Je suppose que non.

La résolution des incidents peut être un processus très difficile, mais il existe des moyens de les rendre moins stressants, et le rôle de commandant d’incident est essentiel.

Dans son livre, Les quatre accords , Don Miguel Ruiz présente un code de conduite personnelle basé sur l'ancienne sagesse toltèque qui aide à éliminer les structures et croyances autolimitantes.

Les quatre accords sont :

  1. Soyez impeccable avec votre mot
  2. Ne prenez rien personnellement
  3. Ne faites pas d'hypothèses
  4. Faites toujours de votre mieux

Chacun des accords peut nous aider à comprendre une approche plus mature, efficace et humaine de la réponse aux incidents dans nos organisations. Les accords peuvent être exprimés comme une modalité de réponse aux incidents. En utilisant les accords, il est plus facile de comprendre les approches modernes pour résoudre efficacement les incidents et même de contribuer à réduire l'épuisement professionnel !

Soyez impeccable avec votre mot

Informer les parties prenantes

Il est essentiel de continuer à impliquer les parties prenantes dans le processus de réponse aux incidents en leur donnant un moyen de rester informés.

Chez PagerDuty, nous disposons d'une salle Slack séparée réservée à Mises à jour des incidents . C'est moins bruyant que notre salle de réponse principale et les gens peuvent y obtenir des mises à jour succinctes s'ils le souhaitent, fournies par l'agent de liaison interne (qui est responsable de la surveillance et de la mise à jour du canal). Cela permet aux dirigeants de rester informés et de poser des questions sans affecter la réponse principale.

N'importe qui peut déclencher une réponse aux incidents

Chez PagerDuty, n'importe qui peut déclencher notre processus de réponse aux incidents. Nous le faisons avec une commande de chat dans Slack, mais la manière dont vous l'implémentez n'a pas vraiment d'importance. L'important est que vous disposiez d'une méthode pour déclencher votre processus de réponse aux incidents, une méthode rapide, simple et accessible à tous. Vous ne voulez pas rester assis à perdre du temps à essayer de déterminer si quelque chose nécessite une réponse, car au moment où vous le ferez, vous constaterez certainement qu'une réponse est nécessaire.

Ne plaidez pas la gravité

Ne discutez pas de la gravité de l'incident pendant l'appel. C'est une perte de temps. Lorsque vous aurez fini de discuter de la gravité de l'incident, il sera définitivement devenu un SEV-2. Meilleure pratique : si vous ne parvenez pas à décider s'il s'agit d'un SEV-1 ou d'un SEV-2, partez toujours du principe qu'il s'agit de l'option de gravité la plus élevée et passez à autre chose.

Ne prenez rien personnellement

Changement de mentalité

Une fois qu'un incident est déclenché, l'équipe doit procéder à un changement de mentalité. En d'autres termes, chacun doit changer son mode de pensée. Vous pouvez considérer cela comme la différence entre « temps de paix et temps de guerre » ou « temps normal et urgence ». Des choses qui ne sont pas acceptables pendant les opérations quotidiennes deviennent acceptables pendant une urgence.

Cela signifie que lors d'un incident, beaucoup de choses changent. Et l'une de ces choses concerne la façon dont vous communiquez. Cela ne signifie pas que vous devez vous traiter mal les uns les autres. Mais vous devez vous concentrer sur votre objectif, qui est de gérer la situation de manière à limiter les dégâts et à réduire le temps et les coûts de rétablissement.

Le commandant d'incident est la plus haute autorité

Si votre équipe suit un processus de réponse aux incidents similaire à celui de PagerDuty , quelqu'un sera affecté à un rôle appelé le Commandant d'intervention (CI).

L'un des points les plus importants à retenir à propos du CI est qu'il est la plus haute autorité sur l'appel. Il est la source ultime de vérité lors d'un incident et aucune action ne doit être entreprise sans son accord. C'est essentiel pour une réponse efficace à un incident, mais il faut un certain temps pour s'y habituer. Assurez-vous de préparer votre organisation à cela avant que cela ne se produise lors d'un incident. Ne le prenez pas personnellement, c'est la fonction de ce rôle.

Le commandant d'incident n'est pas un résolveur

Chez PagerDuty, notre processus de réponse aux incidents est basé sur le système de commandement des incidents, un modèle national utilisé par les intervenants d'urgence locaux, étatiques et fédéraux. Dans les services d'incendie, le commandant des interventions porte un casque blanc pour les identifier comme tels. Il y a un dicton qui dit que si vous voyez quelqu'un portant un casque blanc ramasser une clé, emportez-la et frappez-le à la tête avec.

Le même concept s'applique chez PagerDuty lors d'un incident. (Peut-être moins le fait de les frapper à la tête.) Le travail du CI est de déléguer et de coordonner, et non de faire le travail pour résoudre l'incident. Il est crucial que le CI ne joue pas le rôle d'un expert en la matière qui se connecte aux serveurs ou examine les journaux.

Même si vous ne devez pas frapper vos IC avec une clé à molette, il est toujours approprié de leur rappeler parfois qu'ils ne doivent pas directement tenter de résoudre l'incident. Si vous êtes un IC et que quelqu'un vous le rappelle, ne le prenez pas personnellement !

Coup de maître exécutif

Lors d'un incident, les dirigeants peuvent essayer de prendre le contrôle de l'équipe, ce qui complique la tâche des intervenants. La solution est simple : laissez-les prendre le contrôle. L'IC doit demander : « Allez-vous prendre le contrôle de l'appel ? » Si la réponse est oui, tant mieux. La plupart du temps, cependant, ils ne diront rien et l'équipe peut se concentrer sur la résolution de l'incident.

Adopter cette approche peut s'avérer difficile, car tous les membres de la haute direction ne réagiront pas bien à un IC qui les dépasse lors de l'appel. C'est pourquoi il est important de préparer la haute direction à l'avance ! Gardez toutefois à l'esprit que même si cela a été discuté, il peut encore falloir quelques ajustements.

Il peut également arriver qu’un dirigeant exige que l’incident soit résolu « dans les 10 minutes qui suivent ». Même si cela peut paraître très démotivant lorsque cela se produit, restez professionnel. Dites : « Nous sommes en train de résoudre un incident. Veuillez garder vos commentaires pour la fin », ou orientez-les vers le canal de communication/agent de liaison approprié.

N'oubliez pas que vos dirigeants ne cherchent pas à empirer les choses, mais à vous aider. Ne le prenez pas personnellement.

Ne faites pas d'hypothèses

Le consensus est difficile

Obtenir l'accord d'un grand groupe de personnes chargées de la résolution d'un appel peut être difficile, il est donc préférable d'optimiser la situation pour la majorité. C'est pourquoi, au lieu de demander si tout le monde est d'accord sur une action, il est préférable de demander : « Y a-t-il de fortes objections ? » Cela peut également éviter l'effet rétrospectif (« Je savais que cela ne marcherait pas ») et souligner que nous ne recherchons pas la solution la plus parfaite.

Mieux vaut être clair que concis

Lorsque nous utilisons trop de jargon (par exemple, « mettons l'IC sur le RC et obtenons des BLT pour toutes les PME »), nous ajoutons une surcharge cognitive importante. Cela peut également donner aux nouveaux arrivants le sentiment d'être exclus. Privilégiez une communication claire plutôt que concise.

Attribuer des tâches à une personne spécifique et leur attribuer un délai

Quelques éléments critiques à noter dans la capture d'écran ci-dessus :

  • Les tâches sont attribuées à des personnes spécifiques et non à un groupe.
  • Limitez le temps consacré aux tâches afin que le répondant sache quand vous attendez une mise à jour et ne soit pas pris au dépourvu.
  • Assurez-vous que la tâche est reconnue.

En suivant ces bonnes pratiques, vous éviterez « l’effet du spectateur ». N’oubliez pas que lors d’un incident, la phrase « Quelqu’un peut-il… » peut être fatale.

Faites toujours de votre mieux

Il vaut mieux prendre une mauvaise décision que ne pas en prendre

C'est une affirmation très controversée, mais n'oubliez pas que nous changeons un peu les règles en cas d'incident. Prendre la mauvaise décision vous fournira plus d'informations car vous pourrez apprendre de vos erreurs, alors que ne pas prendre de décision revient à rester coincé dans une paralysie analytique.

Rassemblez-vous vite, dispersez-vous encore plus vite

Garder des ressources inutiles sur un appel peut coûter très cher, tant en termes d'argent que d'énergie. Dès que vous n'avez plus besoin d'une personne, encouragez-la à quitter l'appel (vous pouvez toujours la rappeler si vous en avez à nouveau besoin). Avoir des personnes en communication qui ne travaillent pas activement sur l'incident est stressant pour les personnes qui y travaillent activement, car elles savent qu'il y a beaucoup de gens en ligne qui s'impatientent. Gardez les ressources dont vous avez besoin, mais n'ayez pas peur de laisser les gens s'arrêter.

Les transferts sont encouragés

Les intervenants sont-ils fatigués ? Les circuits intégrés se fatiguent-ils ? Bien sûr qu’ils le font ! Nous sommes tous humains. C'est pourquoi nous encourageons les transferts chez PagerDuty. Transférer la responsabilité à un nouveau CI est très simple : faites appel au nouveau CI pour vous suivre un peu afin de vous tenir au courant de ce qui se passe, et faites simplement savoir à tout le monde qu'un transfert se produit. C'est vraiment aussi simple que cela.

Autopsies utiles

Que vous l'appeliez une autopsie, un rapport d'incident ou un bilan d'apprentissage (ou autre chose), il est essentiel de les effectuer pour chaque incident.

Les autopsies doivent suivre une approche irréprochable , mais il est également essentiel que votre organisation et votre équipe en tirent des leçons. Ne vous contentez pas de remplir le formulaire. Passez-les en revue. Partagez les histoires au sein de votre organisation (peut-être même en dehors de votre équipe). Cela renforce la culture de l'apprentissage et contribue à réduire le stress. Les autopsies « en écriture seule » n'aident personne.

Pour plus de détails sur la façon de mener une bonne autopsie, consultez notre nouveau Guide post-mortem .

Révisez votre processus

L'amélioration continue est importante ! Que vous révisiez votre processus tous les trimestres ou tous les ans, il est essentiel de le faire pour continuer à vous améliorer. Tirez le meilleur parti des évaluations en posant les bonnes questions pour vous assurer que votre processus est adapté à votre organisation à mesure qu'elle grandit et mûrit.

Par exemple, dans une petite organisation, il peut être judicieux d'appeler tout le monde à chaque incident critique (par exemple, si vous n'avez qu'une poignée d'ingénieurs) et de licencier ensuite les personnes inutiles. Mais cette méthode n'est pas adaptée à l'évolution de l'organisation, et il est important d'adapter le processus. Continuez à poser des questions sur votre processus et n'ayez pas peur de l'affiner.

Ne pas paniquer

Il est tout à fait naturel de vouloir paniquer lors d'un incident majeur. Se faire réveiller au milieu de la nuit par des alarmes peut être très stressant. Mais peu importe à quel point vous êtes nerveux et bouleversé intérieurement, faites de votre mieux pour ne pas le laisser paraître. La panique est contagieuse, et si vous en présentez les symptômes en tant que CI, cela peut également faire paniquer les autres personnes travaillant sur le problème. Cela entravera le processus de résolution de l'incident.

Restez calme et les autres suivront. Les personnes expérimentées resteront calmes et cela peut faire la différence entre un incident chaotique et un incident qui se résout en douceur. Alors ne paniquez pas !

Quelles sont les bonnes pratiques de vos équipes en matière de réponse aux incidents ? Partagez-les sur notre Forums communautaires -Nous aimerions recevoir de vos nouvelles!