Der Blog

Einführung in den PagerDuty Postmortem-Leitfaden

von Rachael Byrne 1. Februar 2019 | 5 Minuten Lesezeit

Ihr Team hatte stundenlang gegen diesen schwerwiegenden Vorfall gekämpft, aber Ihre Untersuchung geriet in eine Sackgasse nach der anderen. Schließlich gelang es Ihnen, das Problem zu isolieren, und Ihre Diagramme begannen sich zu verbessern. Als alle Systeme wieder normal funktionierten, stießen alle einen kollektiven Seufzer der Erleichterung aus, beendeten den Einsatz und gingen zurück ins Bett, um nie wieder an diesen Vorfall zu denken.

Das dachten Sie zumindest.

Es gibt eigentlich noch eine Sache, die Ihr Team erledigen muss, bevor es weitergeht: eine Postmortem-Analyse. Warum? Postmortem-Analysen sind wichtig, weil sie dabei helfen, eine Kultur der kontinuierlichen Verbesserung zu etablieren.

Ohne eine Postmortem-Analyse verpassen Sie und Ihr Team die Gelegenheit zu erfahren, was Sie richtig machen, wo Sie sich verbessern können und vor allem, wie Sie vermeiden können, immer wieder dieselben Fehler zu machen. Eine gut konzipierte, schuldfreie Postmortem-Analyse hilft Ihrem Team dabei, seine Infrastruktur und seinen Vorfallreaktionsprozess zu verbessern.

Wir freuen uns, Ihnen mitteilen zu können, dass wir einen umfassenden Leitfaden zur Durchführung effektiver Obduktionen . Keine andere Ressource (die wir gefunden haben) behandelt die Nuancen des Kulturwandels, die Details einer gründlichen Analyse und die besonderen Fähigkeiten, die erforderlich sind, um ein ruhiges und anregendes Gespräch über Misserfolge zu führen. Wir erklären, warum diese Konzepte wichtig sind, beschreiben die mit ihrer Umsetzung verbundenen Herausforderungen und bieten umsetzbare Anweisungen für die Durchführung von Post-Mortem-Analysen ohne Schuldzuweisungen.

Wenn Sie noch keine Postmortem-Meetings durchführen, vermittelt Ihnen dieser Leitfaden das Wissen und die Strategien, die Sie benötigen, um einen neuen Prozess in Ihrem Unternehmen einzuführen. Diejenigen unter Ihnen, die bereits Erfahrung mit Postmortem-Meetings haben, erfahren, wie Sie der natürlichen Tendenz zur Schuldzuweisung entgegenwirken, neue Untersuchungslinien für eine tiefere Vorfallanalyse finden, wie Sie das Postmortem-Meeting besser nutzen und wie Sie Ihren bestehenden Prozess verbessern können.

Während der Reaktion auf einen Vorfall konzentriert sich das Team zu 100 Prozent auf die Wiederherstellung des Dienstes. Es kann und sollte weder Zeit noch geistige Energie darauf verschwenden, darüber nachzudenken, wie es etwas optimal machen könnte, oder sich eingehend mit der Ursache des Vorfalls zu befassen. Aus diesem Grund sind Post-Mortem-Analysen so wichtig – sie bieten eine ruhige Gelegenheit zum Nachdenken, wenn das Problem die Benutzer nicht mehr beeinträchtigt. Der Postmortem-Prozess fördert die Konzentration, schafft eine Lernkultur und identifiziert Verbesserungsmöglichkeiten, die sonst verloren gehen würden.

Moment, was genau ist eine Postmortem-Analyse eines Vorfalls?

Der Obduktion des Vorfalls hat viele Namen. Sie kennen es vielleicht als:

  • Lernrückblick
  • Nachbesprechung
  • Vorfallsüberprüfung
  • Vorfallsbericht
  • Überprüfung nach einem Vorfall
  • Ursachenanalyse (RCA)

Im Kern ist die Postmortem-Analyse ein Dokument, das detailliert die situativen Faktoren beschreibt, die zu dem Vorfall geführt haben, die Schritte, die zur Reaktion auf den Vorfall unternommen wurden, und die geplanten Maßnahmen, mit denen ein erneutes Auftreten des Vorfalls verhindert werden soll. Der Postmortem-Prozess umfasst auch ein Meeting, in dem die Ergebnisse der Analyse besprochen und die Erkenntnisse mit der gesamten Organisation und Ihren Kunden geteilt werden.

Nach der Lösung eines schwerwiegenden Vorfalls sollten Sie und Ihr Team über die Postmortem-Analyse nachdenken, solange der Vorfall noch frisch in Ihren Erinnerungen ist. Bei PagerDuty führen wir Postmortem-Analysen innerhalb von fünf Tagen nach jedem schwerwiegenden Vorfall durch. So wie die Lösung des Vorfalls bei seinem Auftreten oberste Priorität hat, hat die Durchführung der Postmortem-Analyse Vorrang vor geplanten Arbeiten. Das Aufschieben der Postmortem-Analyse verzögert wichtige Erkenntnisse, die ein erneutes Auftreten des Vorfalls verhindern können.

Die schuldlose Obduktion

Als IT-Experten wissen wir, dass es in komplexen Systemen zu Fehlern kommen kann – sie sind unvermeidlich. Und es ist wichtig, wie wir auf ein Scheitern reagieren, wenn es auftritt. Der Drang, Einzelpersonen für die Verursachung von Vorfällen die Schuld zu geben und sie zu bestrafen, hat den unbeabsichtigten Effekt, dass der Wissensaustausch, der zur Vermeidung künftiger Vorfälle erforderlich ist, nicht gefördert wird. Ingenieure werden zögern, sich zu äußern, wenn Vorfälle auftreten, aus Angst, beschuldigt zu werden. Dieses Schweigen verschlimmert die Auswirkungen von Vorfällen, indem es die durchschnittliche Gesamtzeit bis zur Feststellung und die durchschnittliche Gesamtzeit bis zur Lösung erhöht.

Damit der Post-Mortem-Prozess zu Systemverbesserungen und Lerneffekten führt, müssen wir menschliche Fehler als Symptom eines systemischen Problems, nicht die Ursache selbst. In komplexen Systemen der Softwareentwicklung führen das Zusammenspiel verschiedener Bedingungen zum Fehler. Das Ziel der Post-Mortem-Analyse besteht darin, zu verstehen, welche systemischen Faktoren zu dem Vorfall geführt haben, und Maßnahmen zu ermitteln, mit denen sich derartige Fehler in Zukunft verhindern lassen.

Eine Obduktion ohne Schuldzuweisungen konzentriert sich auf Wie ein Fehler gemacht wurde, statt WHO hat den Fehler gemacht. Dies ist ein entscheidendes Instrument, das von vielen führenden Organisationen wie Etsy (einem Pionier für schuldlose Obduktionen ), um sicherzustellen, dass Post-Mortem-Analysen den richtigen Ton treffen und Ingenieuren die Möglichkeit geben, wirklich objektive Berichte über das Geschehen abzugeben, ohne dass sie dafür eine Bestrafung befürchten müssen.

Es ist leicht, zuzustimmen, dass wir eine Kultur der kontinuierlichen Verbesserung wollen, aber es ist schwierig, die für das Lernen erforderliche Schuldlosigkeit zu praktizieren. Die inhärent überraschende Natur des Scheiterns führt natürlich dazu, dass Menschen auf eine Weise reagieren, die unser Verständnis davon beeinträchtigt. Bei der Verarbeitung von Informationen nimmt das menschliche Gehirn unbewusst Abkürzungen, um Aktualität gegenüber Genauigkeit zu optimieren, was manchmal zu falschen Schlussfolgerungen führt. In unserem Leitfaden beschreiben wir viele kognitive Voreingenommenheit die die Post-Mortem-Analyse und Strategien zu ihrer Überwindung beeinträchtigen.

Wenn Sie das nächste Mal auf einen schwerwiegenden Vorfall stoßen, denken Sie daran, dass Sie erst reagieren, wenn die Obduktion abgeschlossen ist. Obwohl die Reaktion auf schwerwiegende Vorfälle manchmal schmerzhaft ist, ist sie auch eine unglaubliche Gelegenheit, daraus zu lernen und dauerhafte Verbesserungen an Ihren Systemen und Prozessen vorzunehmen.

Werfen Sie einen Blick auf unseren neuen Leitfaden, um mehr über die einzelnen Schritte zu erfahren: Postmortem-Prozess . Wir würden auch gerne Ihre Techniken zum Üben von schuldlosen Postmortems in unserem Community-Foren !