Blog

Tirer le meilleur parti de votre post-mortem d'incident

par Michael Churchman 17 octobre 2017 | 7 minutes de lecture

Que faites-vous après avoir vécu un incident et effectué une autopsie (ou post-mortem) ? Cela peut sembler une question simple, voire une non-question ; après tout, il est facile de considérer l'autopsie comme la dernière étape de la gestion d'un incident.

Mais ce n'est pas le cas. À bien des égards, ce que vous faire En cas d'incident, l'autopsie peut être aussi importante que l'autopsie elle-même. Ci-dessous, j'explique pourquoi et je donne des conseils sur ce qu'il faut faire une fois l'autopsie terminée.

Pourquoi des autopsies ?

Mais avant d’examiner cette question de plus près, nous devons nous pencher sur une question encore plus fondamentale : Quelle est la fonction d’une autopsie et que doit-elle contenir ?

Une autopsie d’incident remplit les fonctions de base suivantes :

  1. Il permet de consigner l'incident, sa cause et les symptômes associés, sa résolution et son impact pour référence ultérieure. Cela peut être important pour une compréhension future des problèmes techniques et pour résoudre les problèmes juridiques ou administratifs découlant de l'incident.
  2. Il sert de base à l’analyse et à la résolution des problèmes techniques fondamentaux qui ont donné lieu à l’incident.
  3. Il fournit un cadre pour comprendre et améliorer la processus de réponse aux incidents .

Pour prendre en charge ces fonctions de base, une autopsie doit inclure un enregistrement de l'incident, de la réponse et de sa résolution. Elle doit également inclure une analyse de la cause profonde de l’incident, une description de la portée de l’incident et de ses effets, ainsi que toute recommandation appropriée pour résoudre le problème fondamental, améliorer le processus de réponse et/ou atténuer les impacts des incidents futurs.

Comprendre, mais ne pas blâmer

Il est important de noter qu'une autopsie ne doit pas devenir un véhicule de reproches ou de règlements de comptes dans le cadre de la politique de l'entreprise ou de l'organisation. Si nécessaire, mettez en place un processus distinct (c'est-à-dire une discussion informelle/modérée au sein du service) pour discuter des questions liées au personnel, afin de canaliser les reproches loin de l'autopsie elle-même.

L'autopsie doit cependant inclure une discussion honnête sur tous les problèmes techniques ou organisationnels qui ont pu contribuer à l'incident ou qui sont apparus au cours de l'intervention. L'accent doit être mis sur les améliorations apportées à la technologie ou au processus d'intervention, plutôt que sur les déficiences des individus ou des équipes, ou de leur travail.

Quand une autopsie est-elle nécessaire ?

Tous les incidents ne nécessitent pas une autopsie. Les problèmes opérationnels mineurs, les incidents dont la cause est bien comprise et la résolution simple, ainsi que les incidents qui sont facilement maîtrisés avec pas de temps d'arrêt ou la perte de données peut ne pas nécessiter d'autopsie.

Voici quelques exemples de situations pour lesquelles une autopsie est nécessaire :

  • L'incident entraîne une perte de données, de productivité ou d'accès client
  • L'incident a nécessité un arrêt, un réacheminement, une restauration vers une version antérieure du logiciel et/ou une action prolongée pour être résolu
  • L'incident n'a pas été détecté ou traité correctement par les autorités compétentes. surveillance ou des systèmes d'alerte
  • La cause profonde semble être inconnue, inattendue ou suspecte.
  • Le problème semble impliquer des éléments sous-jacents de l'architecture ou de la technologie de l'application qui peuvent avoir des effets de grande ampleur sur le fonctionnement du système.
  • Il y a eu de graves problèmes ou insuffisances dans le processus de réponse ou de résolution.

Les autopsies existent pour faciliter l'apprentissage

Pour qu’une autopsie soit utile, elle doit être lue et comprise par les personnes chargées d’analyser, de résoudre et de prévenir les problèmes à long terme qu’elle décrit.

Cela peut signifier, par exemple, que les équipes ou les services concernés par le problème ou sa résolution doivent être tenus de lire l'autopsie et d'engager une discussion dès que possible pour déterminer les prochaines étapes appropriées. Le processus réel de diffusion des autopsies et de garantie qu'elles sont lues et conduisent à des mesures d'action dépendra, bien entendu, de la structure et de la philosophie managériale de votre organisation.

Composantes de base d'une autopsie

Il y a trois domaines clés à examiner lors de la rédaction ou de la lecture d'un rapport post-mortem d'incident :

Cause première

Une autopsie doit toujours contenir une description de la cause fondamentale, même si elle est connue et triviale. Si elle n'est pas triviale, la description doit inclure une analyse de la cause, avec, si possible, une identification précise de la cause réelle du problème et si la cause fondamentale doit être corrigée. Si la cause fondamentale spécifique ne peut pas être identifiée avec précision, toute information pouvant conduire à son identification future doit être incluse.

Si, par exemple, au cours de la résolution de l'incident, il apparaît que le problème provient d'un module contenant une grande quantité de code hérité, il est important d'inclure ce fait dans l'analyse des causes profondes, même s'il n'est pas possible au moment de l'autopsie d'identifier la cause profonde au-delà du niveau du module lui-même. Le simple fait d'identifier du code hérité en lien avec un incident peut être utile non seulement pour la résolution de l'incident, mais également lors d'enquêtes ultérieures visant à identifier le code qui doit être remplacé.

Réponse

L'autopsie doit inclure une description technique complète du processus d'intervention. Elle doit également inclure une description et une analyse du succès ou de l'échec relatif de ce processus. Cela doit être fait sans pointer du doigt qui que ce soit, mais doit indiquer clairement les échecs ou faiblesses apparents du processus d'intervention ou de la manière dont l'intervention a été menée. Cela peut inclure la répartition des responsabilités entre les membres de l'équipe d'intervention, la communication au sein de l'équipe d'intervention ou entre l'équipe d'intervention et d'autres parties prenantes de l'entreprise, et les problèmes liés à des procédures d'intervention spécifiques.

Les défaillances du processus de réponse peuvent être d'ordre technique ou organisationnel. Il peut s'agir de choses aussi simples que de ne pas informer les services ou les utilisateurs concernés qu'un système ou une application était indisponible pendant la résolution du problème. Si deux membres de l'équipe ont effectué la même tâche sans coordination entre eux, ou si personne n'a effectué une tâche requise, ce qui a entraîné un retard dans la résolution, il convient de le noter dans l'autopsie comme une indication de problèmes potentiels dans l'organisation ou la communication de l'équipe.

Étendue et contrôle des dommages

L'autopsie doit inclure une description claire et précise de l'étendue des dommages causés par l'incident, y compris la perte de données, la perte de productivité et les interruptions d'accès des utilisateurs. Il est également important d'inclure une description et une analyse de toutes les mesures prises pour limiter ou réparer ces dommages. Le contrôle des dommages doit être considéré comme un processus distinct de la résolution des incidents techniques. Selon le type d'incident, le type de dommage et la structure de l'organisation, il peut s'agir d'une responsabilité du service client ou nécessiter des mesures pour d'autres services de l'entreprise.

Les mesures de contrôle des dommages doivent être prises dans le cadre de l'analyse rétrospective, car elles peuvent avoir une incidence directe ou indirecte sur la manière dont des incidents similaires seront traités à l'avenir. Si, par exemple, une panne entraîne l'arrêt du système de réservation de vols d'une compagnie aérienne, il peut être nécessaire de donner la priorité à la mise en place d'un système alternatif de gestion des réservations pendant le temps d'arrêt.

Pas de honte, mais de l'or

Pour tirer le meilleur parti des analyses post-mortem, il faut comprendre qu'elles constituent une feuille de route pour l'amélioration de votre application, de votre infrastructure et de votre processus de réponse. Chaque analyse post-mortem a le potentiel d'améliorer la façon dont votre système fonctionne et la façon dont vous gérez les incidents. Plutôt que de considérer les analyses post-mortem comme une source d'embarras ou comme le signe d'une défaillance quelconque, vous devriez considérer cette précieuse opportunité comme une mine d'or.


PageDuty propose une solution entièrement gratuite manuel d'autopsie qui partage les meilleures pratiques de l'industrie et comprend un modèle d'autopsie . Utilisez-le pour vous aider à formaliser votre propre processus d'autopsie afin de permettre à votre équipe de répondre aux problèmes aussi facilement que possible. Encore mieux, les post-mortems font partie de la plateforme PagerDuty — inscrivez-vous à un essai gratuit de 14 jours et rationalisez l'ensemble du processus post-mortem avec la création automatisée de chronologies, l'édition collaborative, des informations exploitables et bien plus encore !