Utiliser les analyses post-mortem pour comprendre la fiabilité des services
2017 fut une année riche en événements. pannes majeures Certaines pannes ont coupé Internet pendant des heures, tandis que d'autres ont perturbé les flux de travail et la communication dans les entreprises de toutes tailles. Quoi qu'il en soit, ces interruptions ont probablement nécessité de nombreuses analyses a posteriori.
Je souhaite revenir un peu sur Pourquoi rédigeons-nous des rapports post-mortem ? et suggérer quelques pistes de réflexion aux auteurs. Je pense que nous pouvons tous progresser en matière de collecte d'informations afin de mieux anticiper et corriger les dysfonctionnements avant que les services ne soient saturés.
Pourquoi pratique-t-on des autopsies ?
Notre Documents de formation à la réponse aux incidents En d'autres termes : « Des analyses post-mortem efficaces nous permettent de tirer rapidement les leçons de nos erreurs et d'améliorer nos services et processus pour tous. » Le principal enseignement à retenir est que les organisations devraient utiliser les analyses post-mortem pour capitaliser sur les enseignements tirés d'un incident. Autrement dit :
- Les analyses post-mortem permettent de comprendre précisément pourquoi un incident s'est produit et ce qu'il faut faire pour éviter qu'il ne se reproduise.
- Les organisations devraient s'efforcer d'évaluer l'efficacité de leur processus de réponse aux incidents et d'identifier les points à améliorer.
Je pense que ce sont ces deux points dont on parle généralement lorsqu'on évoque « l'analyse des causes profondes et les facteurs causaux », ainsi que « ce qui a bien fonctionné » et « ce qui n'a pas bien fonctionné » dans les analyses post-mortem.
Mais ce n'est pas de cela que je voulais parler ici.
Je pense qu'il y a une autre couche que nous obtenons à partir de processus post-mortem un point qui n'a généralement pas été abordé dans la discussion : communiquer sur la stabilité à long terme de votre service.
Par exemple, lors d'un incident majeur, les analyses a posteriori des incidents mineurs survenus au sein du même service et ayant précédé celui-ci n'ont rien révélé d'inquiétant, jusqu'à ce que l'incident majeur se produise. Une fois celui-ci résolu, l'analyse a posteriori de l'incident majeur s'est penchée sur le « rôle des incidents précédents » et a constaté que toutes les actions de suivi immédiates et prioritaires (P1) identifiées avaient été menées à bien ou annulées en raison de changements de plans ou de nouvelles informations (il est facile, et acceptable, de déprioriser ou de ne pas entreprendre une action si elle semble être un événement isolé).
Entre les incidents mineurs et l'incident majeur, des travaux étaient certes en cours concernant cette plateforme, mais on ne peut pas dire que le service fonctionnait bien ! Les analyses post-incident de cette période se sont concentrées sur les problèmes immédiats, sans prendre en compte l'état général du service. En tant qu'êtres humains, nous avons du mal à nous souvenir des choses, il est donc important d'examiner les tendances générales pour voir s'il existe un problème récurrent ou non. Je pense qu'il est possible d'améliorer les processus en accordant plus d'attention à cet aspect lors de la rédaction d'un rapport post-mortem.
Chez PagerDuty, nous sommes des équipes d'ingénierie responsables des services, et nous avons donc un avis sur la stabilité continue de ces services. Lorsqu'un incident majeur survient, nous sommes amenés à réévaluer notre jugement quant à la stabilité du service et à déterminer si notre opinion sur sa pérennité a évolué. Le cas échéant, nous réexaminons nos plans afin de déterminer s'il est nécessaire de prioriser des travaux d'envergure pour améliorer ce service. Pour un rapport d'analyse post-incident, chose cruciale Il faut se souvenir que les choses que nous choisissons ne pas faire Les actions à entreprendre sont tout aussi importantes à consigner que les actions que nous décidons de réaliser. .
Lors de l'analyse des actions correctives post-mortem, nous avons constaté qu'elles sont souvent très détaillées et circonscrites : « mettre à jour cette bibliothèque », « ajouter ce moniteur », etc. Les recommandations concernant les délais d'exécution de ces actions confirment cette tendance. Or, il est essentiel d'aller au-delà de ces recommandations : les besoins d'améliorations correctives d'envergure, identifiés rapidement, sont bien plus faciles à intégrer aux feuilles de route des équipes. Je pense que les équipes d'ingénierie, étant au plus près des services, possèdent souvent une connaissance interne approfondie et un bon instinct quant à leur état, mais n'ont pas toujours les moyens de partager efficacement ces informations et de mettre en évidence les problèmes nécessitant des interventions plus importantes. L'intégration de ces informations dans les rapports post-mortem offre l'opportunité d'être plus transparent sur ces vulnérabilités potentielles.
Le rapport d'analyse post-mortem n'est pas uniquement destiné à l'équipe qui le réalise et qui est responsable du service ; bien que cette équipe le prépare et mène l'enquête, le rapport final est destiné à l'ensemble de l'organisation. Un rapport de qualité met en évidence les risques liés à nos services actuels et permettra aux équipes Produit et Ingénierie de mieux prioriser leurs interventions sur les services.
Cinq questions auxquelles se poser lors d'une autopsie (aucune d'entre elles n'est la question « pourquoi »)
Une personne extérieure à votre équipe devrait pouvoir lire votre rapport d'autopsie et répondre à ces cinq questions :
- Comment percevions-nous l'état de santé du service concerné avant l'incident ?
- Cet incident nous a-t-il appris quelque chose qui devrait modifier notre point de vue sur la santé de ce service ?
- S’agissait-il d’un bug isolé et spécifique — une défaillance dans une catégorie de problèmes que nous avions anticipée — ou a-t-il révélé une catégorie de problèmes que nous n’avions pas prévue au niveau de l’architecture du service ?
- Pense-t-on qu'un incident similaire à celui-ci se reproduira si nous ne prenons pas de mesures systémiques plus importantes, au-delà des actions recensées ici ?
- Ce type de problème va-t-il s'aggraver/devenir plus fréquent à mesure que nous continuerons à développer et à étendre l'utilisation du service ?
Question bonus : Y a-t-il eu un incident précédent qui a montré des signes avant-coureurs annonçant celui-ci ?
Je m'attends généralement à ce que ces textes servent d'introduction aux « Actions à entreprendre » que l'équipe a l'intention de réaliser, mais parfois, des sections comme « Ce qui a bien fonctionné » ou « Ce qui n'a pas bien fonctionné » seront plus appropriées.
De plus, si des divergences d'opinions existent au sein de l'équipe chargée de rédiger le rapport concernant les questions posées, il est important de les consigner ! L'incertitude est un signal précieux.
Il y a également certains points à clarifier concernant ce que nous pensons accomplir avec les actions que nous entreprenons.
Demandez-vous, sommes-nous :
- Traiter un problème spécifique immédiatement, de manière ciblée et précise ?
- Agir pour éliminer ce que nous considérons comme toute une catégorie de problèmes potentiels ?
- Ne pas agir parce que des initiatives de plus grande envergure sont déjà en cours et rendront rapidement obsolète une solution ciblée ? (Si tel est le cas, il convient de dénoncer ces initiatives de plus grande envergure !)
- Ne pas prendre de mesures significatives parce que nous ne pensons pas que ce soit justifié ?
Mieux tirer des enseignements des analyses post-mortem et mieux communiquer à leur sujet vous permettra d'améliorer vos services et de réduire le nombre et la gravité des incidents. Nous souhaitons tous moins d'incidents majeurs et plus de tranquillité d'esprit, et nous pouvons y parvenir si nous veillons à tirer le maximum d'enseignements des incidents survenus.
N'oubliez pas de consulter notre Manuel d'autopsie Nous y partageons les leçons tirées de l'expérience et comment mener des analyses post-mortem plus efficaces. Vous pouvez aussi explorer directement le produit et tester notre processus d'analyse post-mortem simplifié : créez des rapports d'incident en un seul clic. Inscrivez-vous pour un essai gratuit Pour commencer !