- PagerDuty /
- Der Blog /
- Best Practices und Einblicke /
- Obduktionen und mehr mit J. Paul Reed
Der Blog
Obduktionen und mehr mit J. Paul Reed
PagerDuty traf sich mit J. Paul Reed, einem Senior Applied Resilience Engineer bei Netflix, zu einem „Ask Me Anything“ (AMA), um Best Practices für Postmortem-Analysen zu besprechen.
Reed ist ein bekannter Redner und Verfechter von DevOps und Betriebskomplexität und verfügt über mehr als 15 Jahre Erfahrung im Release Engineering. Sein technischer Hintergrund sowie seine frühere Arbeit bei Unternehmen wie Mozilla und VMware geben ihm einen einzigartigen Einblick in die Funktionsweise innovativer Organisationen.
Mit Fragen und Anregungen aus der PagerDuty Community behandelte Reed Themen wie schuldlose Postmortems und deren Auswirkungen auf SLAs, die Bedeutung von Folgemaßnahmen und die Vorteile von Wartung gegenüber Austausch. In diesem Blogbeitrag werden wir uns Reeds Antworten zu Best Practices für Postmortems und den Schritten, die Sie für eine erfolgreiche Durchführung unternehmen können, genauer ansehen.
Eine Obduktion ohne Schuldzuweisungen durchführen
Bei einer Post-Mortem-Analyse ohne Schuldzuweisungen liegt der Schwerpunkt darauf, wie ein Vorfall ausgelöst wurde, und nicht darauf, wer ihn verursacht hat. Eine wirklich schuldfreie Post-Mortem-Analyse ermöglicht es Teammitgliedern, ehrlich zu sein, wenn eine Situation eintritt, ohne Angst vor einer Bestrafung haben zu müssen. Wenn Mitarbeitern ein sicherer Raum gegeben wird, um einen Vorfall ehrlich zu besprechen, fühlen sie sich auch wohler dabei, gemeinsam Wege zu finden, um einen ähnlichen Vorfall in Zukunft zu lösen und zu verhindern.
Es genügt jedoch nicht, einfach nur schuldlos zu sein – es ist auch wichtig, sich der Schuld bewusst zu sein. Schuldbewusst zu sein bedeutet, dass wir uns unserer Vorurteile bewusst sind und wissen, wie diese unsere Fähigkeit, einen Vorfall unvoreingenommen zu betrachten, beeinflussen können.
Laut Reed neigen viele Menschen dazu, linear zu denken. Dabei muss eine Sache die direkte Ursache für etwas anderes sein, und das wiederum ist die direkte Ursache für etwas anderes und so weiter. Diese Denkweise kann schädlich sein, denn bei komplexen Programmen und Integrationen ist das nicht immer der Fall.
Vorurteile neigen dazu, dieses lineare Denken zu verstärken, ohne die Umstände zu berücksichtigen. Aber zum Glück sind Manager und Vorgesetzte immer da, um zu helfen, oder? Nun ja, aber sie haben ihre eigenen unbewussten Vorurteile und neigen daher möglicherweise zu linearem Denken, ohne es zu wissen.
Manager stehen vor der schwierigen Aufgabe, sich der Schuldzuweisungen bewusst zu sein und gleichzeitig sicherzustellen, dass in der Post-Mortem-Umgebung keine Schuldzuweisungen erfolgen. Sie müssen einen Mitarbeiter auch korrigieren, wenn er seinen Vorurteilen folgt, und diesen Vorfall in einen lehrreichen Moment verwandeln. Das kann schwierig sein, und der beste Weg, mit solchen Momenten umzugehen – insbesondere wenn man auf die Förderung einer schuldfreien Umgebung hinarbeitet – besteht darin, Vertrauen innerhalb eines Teams zu schaffen, damit sich die Mitarbeiter wohl fühlen, wenn sie über Vorfälle und persönliche Fehler sprechen.
Ein hohes Maß an Vertrauen zwischen Teams fördert ein Gefühl von Geborgenheit und Ehrlichkeit und bietet jedem eine sichere Umgebung, in der er Fehler machen und aus diesen Fehlern lernen kann. Mit der Zeit wird dies die Effizienz der Arbeitsabläufe fördern und den Stress bei Projekten im gesamten Unternehmen reduzieren.
Wichtigste Erkenntnis: Um ein Umfeld zu schaffen, in dem Schuldzuweisungen bewusst und schuldfrei erfolgen, muss das gesamte Team daran arbeiten, Vertrauen aufzubauen und sich der Vorurteile bewusst zu sein. Dies trägt zur Förderung einer Kultur ohne Schuldzuweisungen bei.
Verbesserung und Teamarbeit
Einer der Hauptzwecke der Durchführung einer Postmortem-Analyse ist die kontinuierliche Verbesserung und Effizienzsteigerung bestehender Prozesse. Dies ist heute besonders wichtig, da viele größere Organisationen auf einem HybridOps Modell und möchten das, was sie bereits haben, sowohl nutzen als auch verbessern, zusätzlich zur Implementierung überarbeiteter Run-State-Funktionen.
Viele Teams wollen Systeme komplett ersetzen, weil das einfacher erscheint. Aber obwohl die Wartung eines bestehenden Systems und die gleichzeitige Implementierung eines neuen Systems viel Arbeit zu sein scheint, hat dies den zusätzlichen Vorteil, dass eine Funktion verbessert und erweitert wird. Reed sagt, dass Mitarbeiter durch die fortgesetzte Arbeit innerhalb eines bestimmten Systems ein „Stammeswissen“ darüber aufbauen. Wenn sie während der Bereitschaft auf Vorfälle stoßen, sind sie besser darauf vorbereitet, diese zu bewältigen, was zu schnelleren Lösungen führt.
Wichtigste Erkenntnis: Postmortems basieren auf Verbesserung und Teamarbeit. Wenn ein Unternehmen seine Systeme ständig ersetzt, anstatt sie zu warten, wird es schwierig, eine gemeinsame Wissensbasis rund um die aktuellen Run-State-Funktionen aufzubauen.
Folgemaßnahmen durchführen
Während einer Postmortem-Analyse sollten Folgeaufgaben zugewiesen werden, um sicherzustellen, dass nach der Analyse Verbesserungen vorgenommen werden.
Um dies zu erreichen, empfiehlt Reed, dass am Ende einer Post-Mortem-Analyse jeder Mitarbeiter die drei wichtigsten Folgeaufgaben auf einen Notizzettel schreibt, die er für die wichtigsten hält. Sobald die Notizen abgeschlossen sind, werden sie gesammelt und das Team stimmt ab, um sie nach Wichtigkeit und Erledigungswahrscheinlichkeit zu ordnen.
Anschließend nimmt das Team die fünf wichtigsten Aufgaben und konzentriert sich darauf, nur diese Folgemaßnahmen abzuschließen. Nach Ablauf von 6 Wochen trifft sich das Team erneut, um zu überprüfen, welche Aufgaben wann abgeschlossen wurden.
Wichtigste Erkenntnis: Das Abschließen aller Folgeaufgaben nach einer Postmortem-Analyse kann ein gutes Gefühl sein und bei jedem ein Erfolgserlebnis hinterlassen, aber es ist nicht immer möglich oder realistisch, alle Aufgaben auf jeder Wunschliste abzuarbeiten. Stattdessen ist es besser, kleine, realistische Ziele für das Team festzulegen und die Postmortem-Folgemaßnahmen einzugrenzen.
Vorteile einer zeitnahen Obduktion
Laut Reed ist eine Obduktion null und nichtig, wenn sie mehr als 72 Stunden nach einem Vorfall durchgeführt wird. Nach dieser Zeitspanne setzen sich in der Regel kognitive Verzerrungen durch, was eine schuldfreie Obduktion erschwert und zu mittelmäßigen Daten führt. Rückschau- und Aktualitätsverzerrungen erschweren eine erfolgreiche Obduktion nach längerer Zeit besonders, da diese Verzerrungen dazu führen, dass Sie vergessen, was Sie in dem Moment dachten, als der Vorfall geschah. Darüber hinaus verblasst das Gedächtnis mit der Zeit, sodass ein zu langer Zeitraum zwischen einem Vorfall und einer Obduktion zu Ergebnissen führen kann, die auf unzuverlässigen Erzählungen beruhen.
Wichtigste Erkenntnis: Führen Sie so bald wie möglich eine Obduktion durch, im Idealfall innerhalb von 72 Stunden nach einem Vorfall.
Abschluss
Postmortems ohne Schuldzuweisungen fördern eine Kultur des Wissens, des Verständnisses und der Produktivität. Wie Reed betont, sind Postmortems mehr als nur Besprechungen, in denen besprochen wird, was schiefgelaufen ist. Sie sind ein Indikator für die Umgebung, in der ein Unternehmen tätig ist.
Möchten Sie mehr erfahren? Sehen Sie sich das vollständige AMA an Hier oder besuchen Sie unsere Postmortems Ops-Handbuch .