Der Blog

So holen Sie das Beste aus der Obduktion Ihres Vorfalls heraus

von Michael Churchman 17. Oktober 2017 | 7 min Lesezeit

Was tun Sie, nachdem Sie einen Vorfall erlebt haben und eine Obduktion (oder Post-mortem)? Das mag wie eine einfache Frage oder sogar wie eine Nicht-Frage erscheinen; schließlich ist es einfach, die Post-mortem-Analyse als den letzten Schritt bei der Bearbeitung eines Vorfalls zu betrachten.

Aber das ist es nicht. In vielerlei Hinsicht, was Sie Tun Bei der Obduktion eines Vorfalls kann die Obduktion genauso wichtig sein wie die Obduktion selbst. Im Folgenden erkläre ich, warum das so ist, und gebe Tipps, was nach der Obduktion zu tun ist.

Warum Obduktionen?

Bevor wir uns diese Frage jedoch genauer ansehen, müssen wir uns mit einer noch grundlegenderen Frage befassen: Welche Funktion hat eine Obduktion und was sollte sie enthalten?

Die Obduktion eines Vorfalls dient folgenden grundlegenden Zwecken:

  1. Es enthält eine Aufzeichnung des Vorfalls, seiner Ursache und der damit verbundenen Symptome, seiner Lösung und seiner Auswirkungen zur späteren Bezugnahme. Dies kann sowohl für ein späteres Verständnis der technischen Probleme als auch für die Lösung rechtlicher oder administrativer Probleme, die sich aus dem Vorfall ergeben, wichtig sein.
  2. Es dient als Grundlage für die Analyse und Lösung der grundlegenden technischen Probleme, die zu dem Vorfall geführt haben.
  3. Es bietet einen Rahmen für das Verständnis und die Verbesserung der Vorfallreaktionsprozess .

Um diese grundlegenden Funktionen zu unterstützen, sollte eine Post-mortem-Analyse eine Aufzeichnung des Vorfalls, der Reaktion darauf und seiner Lösung enthalten. Sie sollte auch eine Analyse der Grundursache des Vorfalls, eine Beschreibung des Umfangs des Vorfalls und seiner Auswirkungen sowie etwaige geeignete Empfehlungen zur Lösung des Grundproblems, zur Verbesserung des Reaktionsprozesses und/oder zur Milderung der Auswirkungen künftiger Vorfälle.

Verständnis, aber keine Schuldzuweisungen

Es ist wichtig zu beachten, dass eine Obduktion nicht dazu dienen sollte, Schuldzuweisungen zu machen oder in der Unternehmens- oder Organisationspolitik Rechnungen zu begleichen. Richten Sie bei Bedarf einen separaten Prozess (z. B. informelle/moderierte Diskussion innerhalb der Abteilung) zur Erörterung personalbezogener Fragen ein, um Schuldzuweisungen von der Obduktion selbst fernzuhalten.

Die Nachbesprechung sollte jedoch eine ehrliche Diskussion aller technischen oder organisatorischen Probleme beinhalten, die möglicherweise zu dem Vorfall beigetragen haben oder die während der Reaktion offensichtlich wurden. Der Schwerpunkt sollte auf Verbesserungen der Technologie oder des Reaktionsprozesses liegen und nicht auf den Mängeln einzelner Personen oder Teams oder ihrer Arbeit.

Wann ist eine Obduktion notwendig?

Nicht alle Vorfälle erfordern eine Nachuntersuchung. Kleinere Betriebsprobleme, Vorfälle mit einer klaren Ursache und einer einfachen Lösung sowie Vorfälle, die leicht eingedämmt werden können mit keine Ausfallzeiten Bei Datenverlust oder bei Datenverlust ist möglicherweise keine Obduktion erforderlich.

Hier einige Beispiele für Situationen, in denen eine Obduktion erforderlich ist:

  • Der Vorfall führt zum Verlust von Daten, Produktivität oder Kundenzugriff
  • Der Vorfall erforderte eine Abschaltung, Umleitung, ein Rollback auf eine frühere Softwareversion und/oder längere Maßnahmen zur Lösung
  • Der Vorfall wurde von den zuständigen Behörden nicht erkannt oder nicht ordnungsgemäß behandelt. Überwachung oder Warnsysteme
  • Die Grundursache scheint unbekannter, unerwarteter oder verdächtiger Natur zu sein
  • Das Problem scheint zugrunde liegende Elemente der Anwendungsarchitektur oder -technologie zu betreffen, die weitreichende Auswirkungen auf den Betrieb des Systems haben können
  • Es gab schwerwiegende Probleme oder Unzulänglichkeiten im Reaktions- oder Lösungsprozess.

Post-Mortems dienen dazu, das Lernen zu erleichtern

Damit eine Obduktion von Nutzen ist, muss sie von den Personen gelesen und verstanden werden, die für die Analyse, Lösung und Vorbeugung der darin beschriebenen langfristigen Probleme verantwortlich sind.

Dies kann beispielsweise bedeuten, dass Teams oder Abteilungen, die an dem Problem oder seiner Lösung beteiligt sind, verpflichtet werden sollten, die Post-Mortem-Analyse zu lesen und so schnell wie möglich an einer Diskussion teilzunehmen, um die entsprechenden nächsten Schritte festzulegen. Der eigentliche Prozess zur Verbreitung der Post-Mortem-Analyse und zur Sicherstellung, dass sie gelesen werden und zu Maßnahmen führen, hängt natürlich von der Struktur und der Managementphilosophie Ihrer Organisation ab.

Grundlegende Komponenten einer Obduktion

Beim Schreiben oder Lesen einer Obduktion eines Vorfalls sind drei Hauptbereiche zu beachten:

Grundursache

Eine Obduktion sollte immer eine Beschreibung der Grundursache enthalten, auch wenn diese bekannt und trivial ist. Wenn sie nicht trivial ist, sollte die Beschreibung eine Analyse der Ursache enthalten, und zwar möglichst mit einer genauen Identifizierung der tatsächlichen Ursache des Problems und ob die Grundursache behoben werden muss. Wenn die spezifische Grundursache nicht genau identifiziert werden kann, sollten alle Informationen enthalten sein, die zu ihrer zukünftigen Identifizierung führen können.

Wenn sich beispielsweise während der Lösung des Vorfalls herausstellt, dass das Problem in einem Modul seinen Ursprung hatte, das eine große Menge an Legacy-Code enthält, ist es wichtig, diese Tatsache in die Ursachenanalyse einzubeziehen, auch wenn es zum Zeitpunkt der Nachuntersuchung nicht möglich ist, die Grundursache unterhalb der Ebene des Moduls selbst zu ermitteln. Die bloße Tatsache, dass Legacy-Code im Zusammenhang mit einem Vorfall identifiziert wurde, kann nicht nur für die Lösung des Vorfalls von Wert sein, sondern auch für spätere Untersuchungen, bei denen Code identifiziert wird, der ersetzt werden muss.

Antwort

Die Post-mortem-Analyse sollte eine vollständige technische Beschreibung des Reaktionsprozesses enthalten. Sie sollte auch eine Beschreibung und Analyse des relativen Erfolgs oder Misserfolgs dieses Prozesses enthalten. Dabei sollte niemand mit dem Finger auf jemanden zeigen, aber offensichtliche Fehler oder Schwächen im Reaktionsprozess oder in der Art und Weise, wie die Reaktion durchgeführt wurde, sollten klar aufgezeigt werden. Dies kann die Aufteilung der Verantwortlichkeiten unter den Mitgliedern des Reaktionsteams, die Kommunikation innerhalb des Reaktionsteams oder zwischen dem Reaktionsteam und anderen Beteiligten im gesamten Unternehmen sowie Probleme mit bestimmten Reaktionsverfahren umfassen.

Fehler im Reaktionsprozess können technischer oder organisatorischer Natur sein. Sie können so einfache Dinge umfassen, wie beispielsweise, dass die betroffenen Abteilungen oder Benutzer nicht darüber informiert wurden, dass ein System oder eine Anwendung während der Problemlösung nicht verfügbar war. Wenn zwei Teammitglieder dieselbe Aufgabe ohne Abstimmung untereinander ausgeführt haben oder niemand eine erforderliche Aufgabe ausgeführt hat, was zu einer Verzögerung der Lösung geführt hat, sollte dies in der Nachbesprechung als Hinweis auf mögliche Probleme bei der Teamorganisation oder -kommunikation vermerkt werden.

Schadensumfang und -kontrolle

Die Nachbetrachtung sollte eine klare und genaue Beschreibung des Ausmaßes aller durch den Vorfall verursachten Schäden enthalten, einschließlich Datenverlust, Produktivitätsverlust und Unterbrechungen des Benutzerzugriffs. Ebenso wichtig ist eine Beschreibung und Analyse aller Maßnahmen, die zur Begrenzung oder Behebung dieses Schadens ergriffen wurden. Die Schadensbegrenzung sollte als separater Prozess von der technischen Vorfallsbehebung betrachtet werden. Je nach Art des Vorfalls, der Art des Schadens und der Organisationsstruktur kann es sich um eine Kundendienstverantwortung handeln oder Maßnahmen anderer Abteilungen im Unternehmen erfordern.

Maßnahmen zur Schadensbegrenzung sollten Teil der Nachuntersuchung sein, da sie sich direkt oder indirekt darauf auswirken können, wie ähnliche Vorfälle in Zukunft gehandhabt werden. Wenn beispielsweise ein Ausfall zur Abschaltung eines Flugreservierungssystems führt, kann es erforderlich sein, der Einrichtung eines alternativen Systems zur Bearbeitung von Reservierungen während der Ausfallzeit Priorität einzuräumen.

Keine Peinlichkeit, sondern Gold

Um Post-Mortems optimal zu nutzen, müssen Sie verstehen, dass es sich dabei um Fahrpläne zur Verbesserung Ihrer Anwendung, Ihrer Infrastruktur und Ihres Reaktionsprozesses handelt. Jede Post-Mortem-Analyse kann die Funktionsweise Ihres Systems und die Art und Weise, wie Sie mit Vorfällen umgehen, verbessern. Anstatt Post-Mortem-Analysen als peinlich oder als Hinweis auf einen Fehler zu betrachten, sollten Sie diese wertvolle Gelegenheit als Gold betrachten.


PageDuty bietet eine völlig kostenlose Obduktionshandbuch das branchenweit bewährte Vorgehensweisen vermittelt und eine Post-Mortem-Vorlage . Verwenden Sie es, um Ihren eigenen Post-Mortem-Prozess zu formalisieren, damit Ihr Team so einfach wie möglich auf Probleme reagieren kann. Noch besser: Post-Mortems sind Teil der PagerDuty Plattform — melden Sie sich an für eine 14 Tage kostenlos testen und optimieren Sie den gesamten Post-Mortem-Prozess durch automatisierte Zeitleistenerstellung, gemeinsame Bearbeitung, umsetzbare Erkenntnisse und mehr!