Blog

Autopsies et plus avec J. Paul Reed

par Isabelle Pontecorvo 9 juillet 2020 | 6 minutes de lecture

PagerDuty s'est entretenu avec J. Paul Reed, ingénieur principal en résilience appliquée chez Netflix, pour un Ask Me Anything (AMA) afin de discuter des meilleures pratiques en matière d'autopsies.

Reed est un éminent conférencier et défenseur de DevOps et de la complexité des opérations, et possède plus de 15 ans d'expérience en ingénierie de publication. Son expérience dans le domaine des technologies, ainsi que ses précédents travaux dans des entreprises comme Mozilla et VMware, lui donnent une perspective unique sur le fonctionnement interne des organisations innovantes.

Avec des questions et des suggestions soumises par la communauté PagerDuty , Reed a abordé des sujets allant des autopsies irréprochables et leur impact sur les SLA, à l'importance du suivi et aux avantages de la maintenance par rapport au remplacement. Dans cet article de blog, nous examinerons de plus près les réponses de Reed concernant les meilleures pratiques post-mortem et les étapes que vous pouvez suivre pour en mener une avec succès.

Garder une autopsie irréprochable

Une autopsie sans reproche se concentre sur la manière dont un incident a été déclenché plutôt que sur celui qui l’a provoqué. Une autopsie vraiment sans reproche permet aux membres de l’équipe d’être honnêtes lorsqu’une situation se produit sans craindre d’être punis. Lorsque les employés disposent d’un espace sûr pour discuter honnêtement d’un incident, ils se sentiront également plus à l’aise pour réfléchir à des moyens de résoudre et d’empêcher qu’un incident similaire ne se reproduise à l’avenir.

Mais il ne suffit pas d’être irréprochable : il est également important d’être conscient des reproches. Être conscient de nos préjugés signifie que nous sommes conscients de nos préjugés et de la manière dont ils peuvent affecter notre capacité à considérer un incident de manière impartiale.

Selon Reed, de nombreuses personnes ont tendance à penser de manière linéaire, où une chose doit être la cause directe d'une autre chose, et celle-ci est la cause directe d'une autre chose, et ainsi de suite. Ce mode de pensée peut être préjudiciable, car, lorsqu'il s'agit de programmes et d'intégrations complexes, ce n'est pas toujours le cas.

Les préjugés ont tendance à renforcer cette pensée linéaire sans tenir compte des circonstances. Mais heureusement, les managers et les supérieurs sont toujours là pour aider, n'est-ce pas ? Eh bien, oui, mais ils ont leurs propres préjugés inconscients et, par conséquent, peuvent adopter par défaut une pensée linéaire sans le savoir.

Les managers ont la tâche délicate de rester conscients des responsabilités et de veiller à ce que l’environnement post-mortem reste exempt de toute responsabilité. Ils doivent également corriger un employé s’il agit en fonction de ses préjugés et transformer cet incident en un moment d’apprentissage. Cela peut être difficile, et la meilleure façon de gérer des moments comme ceux-ci, en particulier lorsque l’on s’efforce de favoriser un environnement exempt de toute responsabilité, est de susciter la confiance au sein d’une équipe afin que les membres se sentent à l’aise pour discuter des incidents et des erreurs personnelles.

Une grande confiance entre les équipes favorise un sentiment de confort et d’honnêteté qui offre à chacun un environnement sûr où il peut échouer et apprendre de ses échecs. Au fil du temps, cela encouragera l’efficacité des flux de travail et réduira le stress dans les projets au sein d’une organisation.

À retenir : Afin de garantir un environnement conscient et sans reproche, demandez à toute l’équipe de travailler à l’instauration de la confiance et de s’entraîner à être conscient des préjugés, ce qui contribuera à favoriser une culture sans reproche.

Amélioration et travail d'équipe

L’un des principaux objectifs de la réalisation d’une autopsie est l’amélioration continue des processus existants et la création d’efficacité au sein de ceux-ci. Cela est particulièrement important aujourd’hui, où de nombreuses grandes organisations fonctionnent sur un modèle Opérations hybrides modèle et souhaitent à la fois utiliser et améliorer ce qu'ils ont déjà, en plus d'implémenter des fonctionnalités d'état d'exécution remaniées.

De nombreuses équipes souhaitent adopter une approche de type « démolition et remplacement » des systèmes, car cela semble plus simple. Mais si la maintenance d’un système existant et la mise en œuvre d’un nouveau système en même temps peuvent sembler être une tâche fastidieuse, cela présente également l’avantage supplémentaire d’améliorer et de perfectionner une fonctionnalité. Reed explique qu’en continuant à travailler au sein d’un certain système, les employés développent une « connaissance tribale » autour de celui-ci. Ainsi, lorsqu’ils rencontrent des incidents lors de leur appel, ils sont mieux équipés pour les gérer, ce qui se traduit par des solutions plus rapides.

À retenir : Les post-mortems sont construits autour de l'amélioration et du travail d'équipe. Si une entreprise remplace constamment ses systèmes au lieu de les maintenir, il devient difficile de créer une base de connaissances commune autour des fonctionnalités en cours d'exécution.

Assurer le suivi des actions de suivi

Des tâches de suivi doivent être assignées lors d'une autopsie pour garantir que des améliorations sont apportées après l'autopsie.

Pour y parvenir, Reed recommande qu'à la fin d'une autopsie, chaque personne écrive sur un post-it les trois tâches de suivi qu'elle considère comme les plus importantes. Une fois terminées, les notes sont compilées et l'équipe vote pour les classer en fonction de leur importance et de ce qui est susceptible d'être réalisé.

L'équipe sélectionne ensuite les cinq premières tâches et se concentre sur la réalisation de ces seules actions de suivi. Une fois les 6 semaines écoulées, l'équipe se réunit à nouveau pour examiner les tâches qui ont été accomplies et à quel moment.

À retenir : Le fait de terminer toutes les tâches de suivi après un post-mortem peut être une bonne chose et donner à chacun un sentiment d'accomplissement, mais il n'est pas toujours possible ou réaliste de s'attaquer à toutes les tâches de la liste de souhaits de chacun. Il est préférable de fixer de petits objectifs réalistes pour l'équipe et de limiter les actions de suivi post-mortem.

Avantages d'une autopsie effectuée en temps opportun

Selon Reed, effectuer une autopsie plus de 72 heures après un incident rend l'autopsie nulle et non avenue. Les biais cognitifs ont tendance à s'installer après ce laps de temps, ce qui rend difficile la réalisation d'une autopsie irréprochable, ce qui conduit à des données médiocres. Le biais rétrospectif et de récence rend particulièrement difficile la réalisation d'une autopsie réussie après de longues périodes de temps, car ces biais vous font oublier ce que vous pensiez au moment où l'incident s'est produit. De plus, la mémoire a tendance à s'estomper avec le temps, de sorte qu'un délai trop long entre un incident et l'autopsie peut conduire à des résultats basés sur une narration peu fiable.

À retenir : Effectuez une autopsie dès que possible, idéalement dans les 72 heures suivant un incident.

Conclusion

Les autopsies sans reproche favorisent une culture de la connaissance, de la compréhension et de la productivité. Comme le souligne Reed, les autopsies sont bien plus que de simples réunions pour discuter des problèmes survenus, elles sont révélatrices de l’environnement dans lequel évolue une entreprise.

Vous souhaitez en savoir plus ? Regardez l'AMA dans son intégralité ici ou consultez notre Guide des opérations post-mortem .