Blog

Présentation du guide post-mortem PagerDuty

par Rachel Byrne 1er février 2019 | 5 minutes de lecture

Votre équipe a lutté pendant des heures contre cet incident majeur, mais votre enquête a abouti à une impasse après l'autre. Finalement, vous avez réussi à isoler le problème et vos graphiques ont commencé à s'améliorer. Lorsque tous les systèmes sont revenus à la normale, tout le monde a poussé un soupir de soulagement collectif, a arrêté l'appel de réponse et est retourné au lit, pour ne plus jamais penser à cet incident.

Ou du moins c'est ce que vous pensiez.

Il y a en fait une chose supplémentaire que votre équipe doit faire avant de passer à autre chose : effectuer un post-mortem. Pourquoi ? Les post-mortem sont importants car ils contribuent à établir une culture d'amélioration continue.

Sans un post-mortem, vous et votre équipe passez à côté de l'occasion d'apprendre ce que vous faites bien, ce que vous pourriez améliorer et, surtout, comment éviter de répéter sans cesse les mêmes erreurs. Un post-mortem bien conçu et sans reproche aidera votre équipe à améliorer son infrastructure et son processus de réponse aux incidents.

Nous sommes ravis d'annoncer que nous avons lancé un guide complet sur la manière de mener des actions efficaces. autopsies . Aucune autre ressource (que nous ayons trouvée) ne couvre les nuances du changement de culture, les détails sur la manière de réaliser une analyse approfondie et les compétences uniques requises pour faciliter une conversation calme et engageante sur l'échec. Nous expliquons pourquoi ces concepts sont importants, décrivons les défis associés à leur mise en œuvre et proposons des instructions pratiques pour mener des autopsies irréprochables.

Si vous n'effectuez pas encore d'autopsie, ce guide vous fournira les connaissances et les stratégies nécessaires pour introduire un nouveau processus dans votre organisation. Pour ceux d'entre vous qui ont déjà fait des autopsies, vous apprendrez à combattre la tendance naturelle à blâmer, à trouver de nouvelles pistes d'enquête pour une analyse plus approfondie des incidents, à mieux utiliser la réunion d'autopsie et à améliorer votre processus existant.

Lors de la réponse à un incident, l'équipe se concentre à 100 % sur la restauration du service. Elle ne peut pas, et ne doit pas, perdre du temps et de l'énergie mentale à réfléchir à la manière de procéder de manière optimale ou à effectuer une analyse approfondie des causes de l'incident. C'est pourquoi les autopsies sont essentielles : elles offrent une occasion de réfléchir en temps de paix une fois que le problème n'a plus d'impact sur les utilisateurs. Le processus d’autopsie permet de se concentrer, d’instaurer une culture d’apprentissage et d’identifier les opportunités d’amélioration qui, autrement, seraient perdues.

Attendez, qu’est-ce qu’une autopsie d’incident exactement ?

Le Autopsie de l'incident porte plusieurs noms. Vous le connaissez peut-être sous le nom de :

  • Revue d'apprentissage
  • Revue après action
  • Examen des incidents
  • Rapport d'incident
  • Examen post-incident
  • Analyse des causes profondes (ou RCA)

L'autopsie est un document qui décrit en détail les facteurs situationnels qui ont conduit à l'incident, les mesures prises pour y répondre et les travaux prévus pour éviter qu'il ne se reproduise. Le processus d'autopsie comprend également une réunion pour discuter des résultats de l'analyse et partager ces enseignements avec l'ensemble de l'organisation et vos clients.

Après avoir résolu un incident majeur, vous et votre équipe devriez commencer à réfléchir au post-mortem pendant que l'incident est encore frais dans votre esprit. Chez PagerDuty, nous effectuons des autopsies dans les cinq jours suivant chaque incident majeur. Tout comme la résolution de l’incident devient une priorité absolue lorsqu’il se produit, la réalisation de l’autopsie est prioritaire sur le travail planifié. Le report de l’autopsie retarde les enseignements clés qui peuvent empêcher que l’incident ne se reproduise.

L'autopsie sans reproche

En tant que professionnels de l’informatique, nous comprenons que les échecs surviennent dans des systèmes complexes : ils sont inévitables. Et la manière dont nous réagissons à l’échec lorsqu’il se produit est importante. La tendance à blâmer et à punir les individus responsables d’incidents a pour effet involontaire de décourager le partage des connaissances nécessaire pour prévenir de futurs incidents. Les ingénieurs hésitent à s’exprimer lorsque des incidents se produisent par peur d’être blâmés. Ce silence aggrave l’impact des incidents en augmentant le temps moyen global de reconnaissance et de résolution.

Pour que le processus post-mortem aboutisse à des améliorations du système et à un apprentissage, nous devons traiter l'erreur humaine comme une symptôme Il s'agit d'un problème systémique, et non de la cause elle-même. Dans les systèmes complexes de développement de logiciels, une variété de conditions interagissent pour conduire à un échec. L’objectif de l’autopsie est de comprendre quels facteurs systémiques ont conduit à l’incident et d’identifier les actions qui peuvent empêcher que ce type de défaillance ne se reproduise.

Une autopsie sans reproche reste concentrée sur comment une erreur a été commise à la place de OMS fait l'erreur. Il s'agit d'un outil crucial utilisé par de nombreuses organisations de premier plan, telles qu'Etsy (un pionnier de autopsies sans reproche ), pour garantir que les autopsies ont le bon ton, permettant aux ingénieurs de donner des comptes rendus véritablement objectifs de ce qui s'est passé en éliminant la peur de la punition.

Il est facile de convenir que nous voulons une culture d'amélioration continue, mais il est difficile de pratiquer l'absence de reproches nécessaire à l'apprentissage. La nature intrinsèquement surprenante de l'échec conduit naturellement les humains à réagir d'une manière qui interfère avec notre compréhension de celui-ci. Lors du traitement des informations, l'esprit humain prend inconsciemment des raccourcis pour optimiser la rapidité plutôt que l'exactitude, ce qui conduit parfois à des conclusions erronées. Dans notre guide, nous détaillons de nombreuses biais cognitifs qui interfèrent avec l’analyse post-mortem et les stratégies pour les surmonter.

La prochaine fois que vous serez confronté à un incident majeur, n'oubliez pas que votre réponse ne sera pas terminée tant que l'autopsie n'aura pas été effectuée. Bien que la réponse à un incident majeur soit parfois pénible, elle constitue également une formidable opportunité d'apprendre et d'apporter des améliorations durables à vos systèmes et processus.

Jetez un œil à notre nouveau guide pour en savoir plus sur les étapes impliquées dans le processus post-mortem Nous aimerions également connaître vos techniques pour pratiquer des autopsies sans reproche dans notre Forums communautaires !