Der Blog

In 5 einfachen Schritten zur Ursache (Ursachenanalyse)

von PagerDuty Universität 10. August 2022 | 5 Minuten Lesezeit

Was ist eines der ersten Dinge, die Sie tun sollten, wenn Ihnen über PagerDuty ein Vorfall zugewiesen wird? Wenn Sie sofort „Bestätigen!“ dachten, liegen Sie nicht falsch, aber danach geht es nur noch darum, das Problem so schnell wie möglich zu lösen. schmerzlos wie möglich. Der erste Schritt zur Lösung besteht darin, zu untersuchen, was den Vorfall überhaupt verursacht hat, damit Sie problemlos eine Lösung finden können.

In der PagerDuty -Plattform bezieht sich Root Cause Analysis* auf eine Reihe von Funktionen, die darauf abzielen, Ihnen als Einsatzkräften so viel Kontext und verwertbare Informationen wie möglich zu liefern. Durch die Anzeige vergangener und verwandter Vorfälle sowie Einblicke in die Häufigkeit von Vorfällen erhalten Einsatzkräfte Werkzeuge, mit denen sie schnell das Situationsbewusstsein erlangen können, das sie benötigen, um die wahrscheinliche Grundursache zu ermitteln, die Triage zu beschleunigen und letztendlich schneller eine Lösung zu finden. Mögliche Ursprungspunkte basierend auf historischen Daten werden ebenfalls hervorgehoben, um Kontext hinzuzufügen.

Die folgenden fünf Stellen auf der Seite mit den Vorfalldetails helfen Ihnen bei der Untersuchung der möglichen Grundursachen:

  1. Ausreißer-Vorfall
    Wenn Sie zum ersten Mal einen Vorfall öffnen, suchen Sie nach dem Ausreißer-Vorfall Klassifizierungsbezeichnung. Diese Bezeichnung befindet sich direkt unter dem Vorfallnamen und hat die Klassifizierungsbezeichnung „Häufig“, „Selten“ oder „Anomalie“. Anhand dieser Klassifizierungsbezeichnung können Sie schnell einschätzen, ob dieser Vorfall schon einmal aufgetreten ist und wie Sie aufgrund früherer Erfahrungen darauf reagieren würden. Bewegen Sie den Mauszeiger über die Bezeichnung, um die Definitionen zu lesen. Outlier Incident classification label of "Frequent," "Rare," or "Anomaly."
  2. Vergangene Vorfälle
    Wenn Sie die Häufigkeit ermittelt haben, mit der der Vorfall beim Dienst aufgetreten ist, navigieren Sie zum Vergangene Vorfälle weiter unten auf der Seite. Eine Heatmap zeigt an, wann sich in den letzten sechs Monaten frühere Vorfälle wie dieser offene Vorfall ereignet haben. Achten Sie auf Muster in den Farben – dunklere Farben bedeuten eine höhere Konzentration von Vorfällen – oder fahren Sie mit der Maus über die Heatmap-Farben, um weitere Einzelheiten zu den entsprechenden Vorfällen anzuzeigen. Darunter finden Sie Einzelheiten zu den Top 5 der vergangenen Vorfälle wie dem offenen Vorfall (falls es welche gibt!) zusammen mit Informationen darüber, wann sie aufgetreten sind und wer den Vorfall zuletzt geändert hat. Hinweis: Diese Person ist eine großartige Ressource, wenn Sie sie fragen möchten, was sie getan hat, oder ihre Notizen zu dem Vorfall sehen möchten! Um die Seite mit den Vorfalldetails für einen beliebigen vergangenen Vorfall zu öffnen, klicken Sie auf den Titel mit dem Hyperlink. Past Incidents heat map
  3. Ähnliche Vorfälle
    Eine weitere schnelle Informationsquelle ist die Ähnliche Vorfälle Registerkarte. Hier sehen Sie, ob es derzeit laufende Vorfälle gibt, die mit Ihrem Problem in Zusammenhang stehen könnten, und zwar über alle Dienste hinweg. Bei „Vergangene Vorfälle“ werden dagegen nur ähnliche Vorfälle im selben Dienst angezeigt. Wenn Sie den Umfang eines Vorfalls im gesamten Unternehmen kennen (ist er isoliert oder Teil eines größeren Problems?), können Sie die Auswirkungen besser verstehen und schnell erkennen, mit wem Sie zusammenarbeiten müssen, um das Problem zu beheben. View of Related Incidents tab
  4. Mögliche Ursprünge
    Starten Sie Ihre Triage-Bemühungen mit dem Mögliche Ursprünge Widget auf der Seite mit den Vorfalldetails. Dieses Widget berechnet den wahrscheinlichen Ursprungsprozentsatz auf Grundlage historischer Daten, z. B. ob der Vorfall direkt vor oder nach einem ähnlichen Ereignis wie dem aktuell offenen Vorfall aufgetreten ist. Screenshot of Probable Origins widget
  5. Korrelation ändern
    Und schließlich kann die Lösung des Problems erheblich beschleunigt werden, wenn Sie über Änderungen an Ihrer Infrastruktur oder Ihrem Code informiert sind, die den Vorfall verursacht haben könnten. Korrelation ändern , angezeigt unter „Letzte Änderungen“ auf der Vorfalldetailseite, zeigt die drei letzten Änderungsereignisse, die für einen Vorfall aufgrund der Zeit, der zugehörigen Dienste oder des maschinellen Lernens von PagerDuty am relevantesten sind. Die letzten Änderungsereignisse geben an, warum die Plattform das Ereignis angezeigt hat, sodass Sie potenzielle Ursachen leicht eingrenzen können. Screenshot of Change Correlation display

Wissenscheck! Richtig oder falsch: Die Auf der Registerkarte „Vergangene Vorfälle“ werden gelöste Vorfälle desselben Dienstes angezeigt, während unter „Verwandte Vorfälle“ nur offene Vorfälle bei anderen Diensten angezeigt werden. (Siehe Antwort unten auf der Seite.)

Wie ist es gelaufen? Denken Sie daran, dies sind fünf Stellen, an denen Sie nachsehen können, um schnell einen Kontext zu erhalten und Ihre Triage-Bemühungen anzukurbeln.

Um Vorfälle schneller zu lösen und Ausfallzeiten weiter zu reduzieren, kombinieren Sie diese Funktionen zur Ursachenanalyse mit Rauschunterdrückung und Event-Orchestrierung. Wenn Sie eine Auffrischung benötigen, besuchen Sie die Event Intelligence-Kurse der PagerDuty University und zeigen Sie dann Ihre Fähigkeit, intelligenter und nicht härter zu arbeiten, indem Sie die Event Intelligence-Zertifizierung abschließen!

Ressourcen für die nächsten Schritte:

Kurse zu Event Intelligence finden Sie auf dem eLearning-Portal der PagerDuty University.

  • Lärmminderung
  • Ereignisorchestrierung
  • Ursachenanalyse

Informationen zur Event Intelligence-Zertifizierungsprüfung finden Sie unter diese Seite unter „Spezialproduktzertifizierung“. Zur Feier des Starts dieser neuen Serie bieten wir eine kostenlose Registrierung für die Prüfung für 30 Tage an, also registrieren Sie sich jetzt!

*Fußnote: Obwohl wir diese Kategorie von Funktionen als Ursachenanalyse bezeichnen, sagt PagerDuty die Ursachen weder vorher noch identifiziert es sie. Unsere Funktionen helfen vielmehr dabei, einen Kontext für Vorfälle zu schaffen, um eine schnellere Lösung zu erreichen. Es ist auch erwähnenswert, dass es in der Branche einen Wandel hin zu wahrscheinlicher oder unmittelbarer Ursache gegeben hat, anstatt zu behaupten, dass es eine einzige wahre „Grundursache“ gibt.

Antwort auf Wissensüberprüfung: Falsch. Während die Aussage richtig ist, dass „Vergangene Vorfälle“ nur gelöste Vorfälle aus der Vergangenheit anzeigt, die sich auf demselben Dienst befanden, werden bei „Verwandte Vorfälle“ andere aktive Vorfälle – offene und kürzlich gelöste – auf ALLEN Diensten (einschließlich des Dienstes, auf dem sich Ihr aktueller Vorfall befindet) durchsucht, um herauszufinden, ob Vorfälle mit Ihrem aktuellen Vorfall in Zusammenhang stehen.