Der Blog

Verwenden von Postmortems zum Verstehen der Servicezuverlässigkeit

von Jon Grieman 30. Januar 2018 | 6 min Lesezeit

2017 war ein Jahr der vielen größere Ausfälle — einige legten das Internet stundenlang lahm, während andere die Geschäftsabläufe und die Kommunikation in großen und kleinen Unternehmen störten. Wie man es auch dreht und wendet, diese Ausfälle führten wahrscheinlich zu einem hohen Zeitaufwand für Nachbesprechungen.

Ich möchte ein wenig darüber nachdenken warum wir Postmortems schreiben und schlage ein paar Dinge vor, die Autoren beim Schreiben bedenken sollten. Ich denke, wir alle haben noch Verbesserungspotenzial, wenn es darum geht, Informationen zu sammeln, um proaktive Fehlerbehebungen besser planen zu können, bevor die Dienste ins Stocken geraten.

Warum führen wir Obduktionen durch?

Unser Schulungsunterlagen zur Reaktion auf Vorfälle Sagen wir es so: „Effektive Post-Mortem-Analysen ermöglichen es uns, schnell aus unseren Fehlern zu lernen und unsere Dienste und Prozesse für alle zu verbessern.“ Die wichtigste Erkenntnis für mich ist, dass Organisationen Post-Mortem-Analysen nutzen sollten, um festzuhalten, was sie aus einem Vorfall gelernt haben. Mit anderen Worten:

  1. Bei Post-Mortem-Analysen geht es darum, die genauen Gründe für das Eintreten eines Vorfalls herauszufinden und herauszufinden, was getan werden muss, um diesen Vorfall in Zukunft zu verhindern.
  2. Organisationen sollten versuchen herauszufinden, wie effektiv ihr Vorfallreaktionsprozess ist und welche Bereiche verbessert werden können.

Ich denke, diese beiden Punkte sind es, die im Allgemeinen angesprochen werden, wenn bei Post-Mortem-Analysen über „Grundursachenanalyse und kausale Faktoren“ und „Was gut lief“ und „Was nicht gut lief“ gesprochen wird.

Aber darüber möchte ich hier nicht sprechen.

Ich denke, es gibt eine weitere Ebene, die wir aus dem Postmortem-Prozess selbst, das normalerweise nicht Teil der Diskussion war: Kommunikation über die langfristige Stabilität Ihres Dienstes.

Bei einem schwerwiegenden Vorfall beispielsweise ergab die Nachbetrachtung kleinerer Vorfälle im selben Dienst, die dem Vorfall vorausgingen, nichts Besorgniserregendes – bis der große Vorfall passierte. Nach der Lösung des Vorfalls wurde bei der Nachbetrachtung des schwerwiegenden Vorfalls die „Rolle früherer Vorfälle“ untersucht und festgestellt, dass alle identifizierten sofortigen und P1-Folgemaßnahmen abgeschlossen oder aufgrund von Planänderungen oder neuen Informationen abgesagt wurden (es ist einfach und in Ordnung, etwas herabzustufen oder nicht zu tun, wenn es wie ein einmaliges Ereignis aussieht).

Während der Zeit zwischen den kleineren Vorfällen und dem großen Vorfall wurde sicherlich an dieser bestimmten Plattform gearbeitet, aber ich glaube nicht, dass irgendjemand sagen würde, dass der Dienst in gutem Zustand war! Die Post-Mortem-Analysen der Vorfälle in diesem Zeitraum konzentrierten sich auf die unmittelbaren Probleme des Vorfalls – sie erfassten nicht den Zustand des Dienstes als Ganzes. Da wir Menschen schlecht darin sind, uns an Dinge zu erinnern, ist es wichtig, allgemeinere Trends zu beobachten, um zu erkennen, ob es sich um ein wiederkehrendes Problem handelt oder nicht. Ich denke, dass die Möglichkeit besteht, die Prozesse zu verbessern, indem man diesem Aspekt beim Verfassen eines Post-Mortem-Berichts mehr Aufmerksamkeit widmet.

Bei PagerDuty sind wir Service-eigene Entwicklungsteams, daher haben wir Meinungen über die fortlaufende Stabilität der Services unserer Teams. Wenn ein schwerwiegender Vorfall mit einem Service auftritt, zwingt uns das, über unsere Einschätzung der Stabilität nachzudenken und darüber, ob sich unsere Meinung über den langfristigen Zustand aufgrund des Vorfalls geändert hat. Wenn dies der Fall ist, bewerten wir unsere Pläne neu, um festzustellen, ob wir umfangreiche Arbeiten zur Verbesserung dieses Services priorisieren müssen. Für einen Post-Mortem-Bericht ist der von entscheidender Bedeutung zu erinnern ist, dass die Dinge, die wir wählen nicht zu tun denn die Erfassung von Aktionspunkten ist genauso wichtig wie die Erfassung der Aktionspunkte, die wir zu erledigen beschließen .

Bei der Durchsicht der Post-Mortem-Aktionselemente stellten wir fest, dass diese in der Regel sehr feingranular und eng umrissen sind – diese Bibliothek aktualisieren, diesen Monitor hinzufügen und so weiter. Die Anleitungen, die für die Zeitpläne der Aktionselemente im Umlauf sind, unterstreichen dies. Aber es ist auch wichtig, darüber hinaus zu kommunizieren – Bedarf an groß angelegten Abhilfemaßnahmen, die frühzeitig erkannt werden, lässt sich viel einfacher in die Roadmaps der Teams einarbeiten. Ich denke, dass Entwicklungsteams, da sie die Personen sind, die den Diensten am nächsten stehen, oft über viel internes Wissen und ein gutes Gespür für den Zustand der Dienste verfügen, aber nicht immer eine gute Möglichkeit haben, diese Informationen zu teilen und Probleme hervorzuheben, die größere Arbeit erfordern. Indem diese Informationen in Post-Mortem-Berichte aufgenommen werden, können diese drohenden Schwachstellen transparenter dargestellt werden.

Der Postmortem-Bericht ist nicht nur für das Team bestimmt, das ihn durchführt und für den Service verantwortlich ist – das Team erstellt den Bericht und führt die Postmortem-Untersuchung durch, aber der Abschlussbericht selbst ist für die gesamte Organisation bestimmt. Ein guter Bericht erfasst die Risiken unserer aktuellen Services und hilft Produkt und Entwicklung dabei, die Arbeit an Services proaktiver zu priorisieren.

Fünf Fragen, die bei einer Obduktion zu beantworten sind (keine davon lautet „Warum“)

Jemand außerhalb Ihres Teams sollte Ihren Post-Mortem-Bericht lesen und diese fünf Fragen beantworten können:

  1. Wie beurteilten wir den Zustand des betroffenen Dienstes vor dem Vorfall?
  2. Hat uns dieser Vorfall etwas gelehrt, das unsere Ansichten über den Zustand dieses Dienstes ändern sollte?
  3. Handelte es sich hierbei um einen isolierten und spezifischen Fehler – einen Fehler in einer von uns erwarteten Problemklasse – oder wurde eine Problemklasse aufgedeckt, die wir in der Servicearchitektur nicht erwartet hatten?
  4. Glauben wir, dass sich ein Vorfall wie dieser wiederholen wird, wenn wir nicht umfassendere systematische Maßnahmen ergreifen, die über die hier beschriebenen Maßnahmen hinausgehen?
  5. Wird sich diese Art von Problemen verschärfen/wahrscheinlicher auftreten, wenn wir den Dienst weiter ausbauen und seine Nutzung in größerem Umfang betreiben?

*Bonusfrage: Gab es einen früheren Vorfall, bei dem es erste Anzeichen dafür gab, dass dieser Vorfall eintrat?

Ich würde erwarten, dass diese normalerweise als Einführungstext zu den „Aktionspunkten“ verwendet werden, die das Team ergreifen möchte, manchmal ist jedoch „Was gut lief“ oder „Was nicht gut lief“ angemessener.

Wenn es außerdem innerhalb des Teams, das den Bericht erstellt, unterschiedliche Ansichten zu den Fragen gibt, ist das ebenfalls ein Hinweis! Unsicherheit ist ein wertvolles Signal.

Darüber hinaus müssen einige Dinge klargestellt werden hinsichtlich dessen, was wir mit den Maßnahmen erreichen, die wir ergreifen.

Fragen Sie sich: Sind wir:

  1. Sich sofort, gezielt und eng mit einem bestimmten Thema befassen?
  2. Ergreifen Sie Maßnahmen, um eine ganze Klasse potenzieller Probleme zu beseitigen?
  3. Sie ergreifen keine Maßnahmen, weil bereits größere Anstrengungen im Gange sind und eine gezielte Lösung schnell überflüssig machen würden? (Wenn das zutrifft, sollten diese größeren Anstrengungen gerügt werden!)
  4. Wir ergreifen keine bedeutenden Maßnahmen, weil wir sie für nicht gerechtfertigt halten?

Wenn Sie aus Post-Mortem-Analysen mehr lernen und besser kommunizieren, können Sie Ihre Services verbessern und die Anzahl und Schwere der auftretenden Vorfälle verringern. Wir alle möchten weniger schwere Vorfälle und mehr Schlaf, und das können wir erreichen, wenn wir sicherstellen, dass wir aus den Vorfällen, die wir haben, so viel wie möglich lernen.

 


Schauen Sie sich unbedingt unsere Postmortem-Handbuch in dem wir Erfahrungen aus der Praxis mit Ihnen teilen und Ihnen zeigen, wie Sie bessere Post-Mortem-Berichte erstellen können. Oder tauchen Sie direkt in das Produkt ein und probieren Sie unseren optimierten Post-Mortem-Prozess aus, mit dem Sie Vorfallberichte mit nur einem Klick erstellen können. Melden Sie sich für eine kostenlose Testversion an um loszulegen!