Der Blog

Kurztipps: So analysieren Sie jeden Vorfall

von David Hayes 17. Dezember 2015 | 3 Minuten Lesezeit

Argumente für die Obduktion jedes Vorfalls

A Obduktion ist ein Prozess zur Untersuchung eines Vorfalls, um herauszufinden, was schief gelaufen ist und was daraus gelernt werden kann. Wir haben geschrieben vor warum man nicht nur große Vorfälle post mortem analysieren sollte, sondern veröffentlichen auch. Aber Sie sollten Obduktionen nicht nur bei größeren Vorfällen durchführen. Als allgemeine Regel empfehlen wir, dass Sie jeden Vorfall weiterverfolgen, insbesondere wenn er jemanden aufgeweckt hat. Jeder Vorfall ist eine Gelegenheit, als Team zu lernen und Ihr Produkt zu verbessern. Aber es gibt keinen Grund, warum es immer ein schwerfälliger Prozess sein muss.

Tipps zur Vereinfachung

Hier sind einige Tipps, wie Sie es schnell und einfach erledigen können:

  • Legen Sie einen Schwellenwert fest, ab dem ein ganzes Team eine Post-Mortem-Analyse durchführt. Bei PagerDuty prüft das Team alle Sev1s, Sev2s und alle Fälle, in denen ein Prozess zusammengebrochen ist. Alles andere wird von einer einzelnen Person überprüft.
  • Fassen Sie kleinere Vorfälle zusammen und sehen Sie sich die Ergebnisse einer Woche an (Tipp: PagerDuty's Analysefunktionalität eignet sich hierfür hervorragend). Der beste Zeitpunkt ist wahrscheinlich die Schichtübergabe am Ende der Schicht.
  • Das Ziel ist, Ihre verschiedenen Lösungsbemühungen zu priorisieren, nicht Schuld zuweisen .
  • Die Ergebnisse können einfach sein, wie die folgenden Beispiele:
    • Anpassen des Alarmschwellenwerts für das jeweilige Überwachungstool. (Meiner Erfahrung nach wird dieser zu selten angewendet.)
    • Hinzufügen eines neuen Filters in PagerDuty über E-Mail-Filter , Supportzeiten oder nutzen Sie unsere neue Event-Anreicherung Plattform-Beta.
    • Zählen Sie sich wiederholende Vorfälle mit geringer Dringlichkeit. Die meisten Probleme sind keine Blocker, aber Sie sollten trotzdem verfolgen, wie oft sie auftreten, damit Sie sie priorisieren und angehen können, wenn Sie die Bandbreite dafür haben.
    • Optimieren der Weiterleitung einer bestimmten Benachrichtigung.
    • Automatische Planung ein Wartungsfenster, wenn alles andere fehlschlägt (ich persönlich empfehle diese Lösung nicht, aber es ist eine beliebte Verwendung unserer API .)
    • Aktualisieren des Runbooks (und Verknüpfen in der Dienstbeschreibung, damit es den Antwortenden angezeigt wird).
  • Verfolgen Sie einige grobe Schätzungen darüber, wie störend was ein bestimmter Schichtvorfall für Ihr Team sein kann. Ist es in den letzten Schichten besser oder schlechter geworden? Folgen Ihre Vorfälle einem Potenzgesetz (ein großer Vorfall, viele kleine) oder löschen Sie immer mittelgroße Brände?
  • Alle verfügbaren Rohmaterialien (Protokolle, Chat-Mitschriften , usw.) als Anhänge in Ihr Dokument „Reason for Outage“ (RFO) aufnehmen.

Post Mortems machen Ihr Produkt besser

Wenn der Gedanke, für jeden Vorfall eine Post-Mortem-Analyse durchzuführen, anstrengend ist, ist es umso wichtiger, dies zu tun. Und mit diesen Tipps können Sie Ihr Team ganz einfach effizienter bei der Behebung von Ausfällen machen, egal ob große oder kleine. Außerdem kann Ihr Team so eine Dokumentationsbibliothek aufbauen, die Ihnen bei der Einarbeitung, Schulung und beim Verständnis hilft, wie Sie im Allgemeinen ein besseres Produkt entwickeln können.

Monitoring_Ebook_728_90