Blog

Utilisation des autopsies pour comprendre la fiabilité des services

par Jon Grieman 30 janvier 2018 | 6 minutes de lecture

2017 a été une année riche en événements pannes majeures — certaines ont paralysé Internet pendant des heures, tandis que d’autres ont perturbé les flux de travail et la communication dans des entreprises de toutes tailles. Quoi qu’il en soit, ces pannes ont probablement nécessité beaucoup de temps consacré à des analyses rétrospectives.

Je veux réfléchir un peu sur pourquoi nous écrivons des autopsies et suggérer des éléments sur lesquels les auteurs peuvent réfléchir lorsqu'ils écrivent. Je pense que nous pouvons tous nous améliorer en matière de collecte d'informations pour mieux planifier des correctifs proactifs avant que les services ne prennent feu.

Pourquoi effectuons-nous des autopsies ?

Notre Documents de formation sur la réponse aux incidents Pour le dire ainsi : « Des autopsies efficaces nous permettent d’apprendre rapidement de nos erreurs et d’améliorer nos services et nos processus pour tout le monde. » Pour moi, le principal point à retenir est que les organisations devraient utiliser les autopsies pour saisir ce qu’elles ont appris d’un incident. En d’autres termes :

  1. Les autopsies sont un exercice visant à comprendre les raisons spécifiques pour lesquelles un incident s'est produit et ce qui doit être fait pour éviter cet incident à l'avenir.
  2. Les organisations doivent essayer d’apprendre à quel point leur processus de réponse aux incidents est efficace et quels domaines peuvent être améliorés.

Je pense que ces deux points sont ceux dont on parle généralement lorsque les gens parlent d'« analyse des causes profondes et des facteurs causaux » et de « ce qui s'est bien passé » et « ce qui ne s'est pas bien passé » dans les autopsies.

Mais ce n’est pas de cela dont je veux parler ici.

Je pense qu'il y a une autre couche que nous obtenons de la processus post-mortem ce qui n'a généralement pas fait partie de la discussion : communiquer sur la stabilité à long terme de votre service.

Par exemple, dans le cas d'un incident majeur, les analyses rétrospectives des incidents mineurs survenus dans le même service avant celui-ci n'ont révélé aucun élément préoccupant, jusqu'à ce que l'incident majeur se produise. Une fois l'incident résolu, l'analyse rétrospective de l'incident majeur a examiné le « rôle des incidents précédents » et a constaté que tous les suivis immédiats et P1 identifiés avaient été effectués ou annulés en raison de changements de plans ou de nouvelles informations (il est facile et acceptable de déprioriser ou de ne pas faire quelque chose si cela ressemble à un événement unique).

Pendant la période des incidents mineurs jusqu'à l'incident majeur, des travaux ont certainement été effectués sur cette plateforme en particulier, mais je ne pense pas que quiconque puisse dire que le service était en bonne santé ! Les analyses rétrospectives des incidents survenus pendant cette période se sont concentrées sur les problèmes immédiats de l'incident, sans rendre compte de la santé du service dans son ensemble. En tant qu’êtres humains, nous avons du mal à nous souvenir des choses, il est donc important d’examiner les tendances plus larges pour voir s’il existe un problème récurrent ou non. Je pense qu'il est possible d'améliorer les processus en y consacrant davantage d'attention lors de la rédaction d'un rapport d'autopsie.

Chez PagerDuty, nous sommes des équipes d'ingénierie propriétaires de services, nous avons donc des opinions sur la stabilité continue des services de nos équipes. Lorsqu'un incident majeur se produit impliquant un service, cela nous oblige à réfléchir à notre jugement sur la stabilité et à déterminer si notre opinion sur la santé à long terme a changé en raison de l'incident. Si c'est le cas, nous réévaluons ensuite nos plans pour déterminer si nous devons donner la priorité à des travaux de grande envergure pour améliorer ce service. Pour un rapport d'autopsie, le chose d'une importance cruciale à retenir c'est que les choses que nous choisissons pas à faire car les éléments d'action sont aussi importants à capturer que les éléments d'action que nous décidons de faire .

En examinant les éléments d’action post-mortem, nous avons constaté qu’ils ont tendance à être très précis et étroitement ciblés : mettre à niveau cette bibliothèque, ajouter ce moniteur, etc. Les conseils qui circulent pour les calendriers des éléments d’action renforcent cela. Mais il est également important de communiquer au-delà de cela : les besoins d’améliorations correctives de grande envergure qui sont repérés tôt sont beaucoup plus faciles à intégrer dans les feuilles de route des équipes. Je pense que les équipes d’ingénierie, étant les personnes les plus proches des services, ont souvent beaucoup de connaissances internes et de bons instincts sur la santé des services, mais n’ont pas toujours un bon moyen de les partager et de mettre en évidence les problèmes qui nécessitent un travail plus important. En incluant ces informations dans les rapports post-mortem, c’est l’occasion d’être plus transparent sur ces vulnérabilités imminentes.

Le rapport d'autopsie n'est pas uniquement destiné à l'équipe qui le réalise et qui est responsable du service. L'équipe prépare le rapport et mène l'autopsie, mais le rapport final lui-même est destiné à l'ensemble de l'organisation. Un bon rapport capture les risques de nos services actuels et aidera les équipes Produit et Ingénierie à prioriser de manière plus proactive le travail sur les services.

Cinq questions auxquelles il faut répondre lors d’une autopsie (aucune d’entre elles n’est « pourquoi »)

Quelqu'un extérieur à votre équipe devrait pouvoir lire votre rapport d'autopsie et répondre à ces cinq questions :

  1. Comment avons-nous perçu l’état de santé du service concerné avant l’incident ?
  2. Cet incident nous a-t-il appris quelque chose qui devrait changer notre point de vue sur la santé de ce service ?
  3. S’agissait-il d’un bug isolé et spécifique (une défaillance dans une classe de problèmes que nous avions anticipée) ou a-t-il révélé une classe de problèmes que nous n’avions pas anticipés sur le plan architectural dans le service ?
  4. Pensons-nous qu’un incident semblable à celui-ci se reproduira si nous ne prenons pas de mesures systémiques plus vastes au-delà des mesures décrites ici ?
  5. Ce type de problème va-t-il s’aggraver ou être plus susceptible de se produire à mesure que nous continuons à développer et à étendre l’utilisation du service ?

*Question bonus : Y a-t-il eu un incident antérieur qui montrait des signes avant-coureurs de celui-ci ?

Je m'attendrais à ce qu'ils soient généralement utilisés comme texte d'introduction aux « éléments d'action » que l'équipe a l'intention de mettre en œuvre, mais parfois « ce qui s'est bien passé » ou « ce qui ne s'est pas bien passé » sera plus approprié.

De plus, s'il existe des points de vue divergents au sein de l'équipe qui prépare le rapport sur les questions, c'est aussi un élément à prendre en compte ! L'incertitude est un signal précieux.

Il y a également quelques points à clarifier sur ce que nous pensons accomplir avec les mesures que nous prenons.

Demandez-vous, sommes-nous :

  1. Traiter un problème spécifique immédiatement, de manière étroite et ciblée ?
  2. Prendre des mesures pour éliminer ce que nous considérons comme une classe entière de problèmes potentiels ?
  3. Ne pas agir, car des efforts plus importants sont déjà en cours et rendront rapidement obsolète une solution ciblée ? (Si tel est le cas, ces efforts plus importants devraient être dénoncés !)
  4. Ne pas prendre de mesures significatives parce que nous ne pensons pas que cela soit justifié ?

En tirant des enseignements des analyses post-mortem et en communiquant mieux avec elles, vous pourrez améliorer vos services et réduire le nombre et la gravité des incidents auxquels vous êtes confrontés. Nous souhaitons tous moins d'incidents majeurs et plus de sommeil, et nous pouvons y parvenir si nous nous assurons de tirer le meilleur parti des enseignements que nous pouvons des incidents auxquels nous sommes confrontés.

 


N'oubliez pas de consulter notre Manuel d'autopsie dans lequel nous partageons les leçons apprises sur le terrain et comment vous pouvez mener de meilleures autopsies. Ou plongez directement dans le produit et essayez notre processus d'autopsie simplifié où vous pouvez créer des rapports d'incident en un seul clic. Inscrivez-vous pour un essai gratuit pour commencer!