Der Blog

Was ist eine Vorfallanalyse und warum sollten Sie sie durchführen?

von Jeli 1. Februar 2022 | 4 Minuten Lesezeit

Dieser Beitrag wurde ursprünglich im Jeli-Blog veröffentlicht. Jeli wurde 2023 von PagerDuty übernommen und wir veröffentlichen ihn hier erneut, um unserer Community ihre Vordenkerrolle nahezubringen.

Serviceausfälle sind ein häufiger Bestandteil moderner Softwareoperationen, insbesondere wenn Sie schnell agieren oder in großem Maßstab arbeiten! Viele Unternehmen haben dies erkannt und begonnen, in Vorfallanalysen zu investieren, um aus ihren Vorfällen zu lernen. Lassen Sie uns zunächst darüber sprechen, was Vorfallanalysen genau sind und welche Vorteile sie Ihren Teams bieten.

Definieren der Vorfallanalyse

Bei der Vorfallanalyse handelt es sich um einen Prozess, mit dem ermittelt wird, was während eines Ausfalls passiert ist. Dabei wird beispielsweise ermittelt, wer und welche Systemteile betroffen waren und wie das Problem gelöst wurde. Es gibt viele verschiedene Methoden zur Durchführung einer Vorfallanalyse. Im Kern besteht die Vorfallanalyse jedoch normalerweise aus:

  1. Datenerfassung zur Veranstaltung
  2. Analyse der Daten
  3. Schlussfolgerungen aus den Daten ziehen
  4. Stärkung der Resilienz für die Zukunft

Viele sehen eine Kernfunktion der Vorfallanalyse einfach darin, zukünftige Wiederholungen zu verhindern: Korrekturmaßnahmen zu ergreifen, um einen Fehler zu beheben, die Beobachtbarkeit zu verbessern oder die Runbooks zu aktualisieren. Wir sehen darin mehr als das. Es geht darum, die zukünftige Belastbarkeit zu verbessern, indem Einzelpersonen, Teams – und ja, ihre Softwaresysteme – besser auf unerwartete Ausfälle vorbereitet werden.

Einen Schritt weiter gehen

Wir bedienen uns gerne der Technik der Comedy-Improvisation. Wir sagen: „Ja! Wir wollen verhindern, dass das in Zukunft passiert… Und Das heißt, wir bereiten Ingenieure mit einem breiteren Kompetenzspektrum vor, als nur den gleichen Vorfall zu einem späteren Zeitpunkt zu verhindern!“

So wie Sie nie zweimal in denselben Fluss steigen, weil er ununterbrochen fließt, werden Sie auch nie zweimal mit demselben Vorfall konfrontiert, denn kontinuierliche Integration/kontinuierliche Bereitstellung = kontinuierliche Veränderung. Wenn der Fokus der Analyse auf Lernen und nicht nur auf Beheben liegt, kann ein Unternehmen durch Vorfallanalyse besser auf zukünftige Vorfälle reagieren.

So profitieren wir optimal

Natürlich möchten Sie, dass Ihr Unternehmen die Natur unerwarteter Ereignisse kennenlernt und Maßnahmen ergreift, die dazu beitragen können, dass diese Fehlerart in Zukunft nicht mehr zum Problem wird. Der wahre Nutzen einer Vorfallanalyse besteht jedoch darin, dass sie besser versteht, wie das System unter verschiedenen Betriebsbedingungen funktioniert. Mit diesem Verständnis können Ingenieure künftige Überraschungen besser bewältigen – von denen einige aussehen und sich anfühlen können wie vergangene Vorfälle!

Es ist wichtig, dass Ihre Vorfallanalyse beides leistet: verhindert, dass sich ähnliche Vorfälle in Zukunft wiederholen Und vermittelt Ingenieuren ein breiteres Spektrum an Fähigkeiten, die ihnen helfen, die ständigen Herausforderungen an die Zuverlässigkeit zu bewältigen. Wie bereits in der IBM Garage-Methodik zur Vorfallanalyse „Wiederholte Probleme frustrieren Benutzer, brennen Ingenieure aus und können zu einem Vertrauensverlust in die Zuverlässigkeit Ihrer Anwendung führen. Allgemeiner gesagt schaden wiederholte Probleme dem Ruf des Teams oder der Organisation, was zu geschäftlichen Konsequenzen wie verlorenen Kunden führt. Die Analyse von Vorfällen ist eine wichtige Fähigkeit, die jeder Site Reliability Engineer und tatsächlich alle technischen Rollen entwickeln müssen.“

Was wir als nächstes lernen

Wir sind davon überzeugt, dass die Vorfallanalyse eine entscheidende Methode ist, um nicht nur die Belastbarkeit von Entwicklungsteams, sondern des gesamten Unternehmens zu verbessern. Tauchen Sie also gespannt ein in unsere Reihe „Vorfallanalyse 101“! Wir behandeln Themen wie:

  • welche Vorfälle zu untersuchen sind
  • Wer sollte die Untersuchungen leiten?
  • Welche Arten von Daten sollten Sie bei Ihren Vorfallsüberprüfungen verwenden?
  • wie man überzeugende Berichte schreibt, die den Menschen beim Lernen helfen
  • wie Sie die Erkenntnisse mit anderen teilen und sinnvolles Lernen fördern
  • wie Sie nach Abschluss der Analyse entscheiden, welche Verbesserungen vorgenommen werden sollen

Ausführlichere Informationen zu diesen und anderen Themen finden Sie jederzeit bei Jeli's Howie: Der Leitfaden nach dem Vorfall für weitere Informationen zur Vorfallanalyse.

Viel Spaß beim Lernen!