Der Blog

Optimieren Sie die Triage mit Warnmeldungen und Unterdrückung

von Sean Higgins 22. November 2016 | 4 Minuten Lesezeit

Als zentrale Anlaufstelle DevOps Und IT-Betrieb Tooldaten, verlassen sich viele Organisationen darauf, dass PagerDuty sie benachrichtigt, wenn sich eine Komponente ihrer IT-Infrastruktur unerwartet verhält. Wenn Sie PagerDuty schon einmal verwendet haben, hatten Sie wahrscheinlich mit mehreren Vorfällen im Zusammenhang mit einem einzigen Problem zu tun, für die Sie jeweils benachrichtigt wurden. Dies geschieht normalerweise, wenn Sie redundante Überwachungssysteme konfiguriert haben oder wenn ein einzelner Ausfallpunkt oder eine Verschlechterung einen Dominoeffekt verursacht, bei dem mehrere Tools gleichzeitig Warnungen auslösen.

Um dieses Problem zu lösen, haben wir einige wesentliche Änderungen an unserem Datenmodell vorgenommen, indem wir das Konzept einer Warnung in PagerDuty als Objekt neu definiert haben, das den Status des Überwachungstools verfolgt. Die Verwendung von Warnungen in PagerDuty ist die Grundlage für zwei spannende neue Funktionen: Triage und Unterdrückung von Alarmen.

Einführung in die Alert-Triage

Mit der Verfügbarkeit des neuen Warnmeldungs-Triage Mit dieser Funktion können Sie verwandte Warnmeldungen in einem einzigen Vorfallobjekt gruppieren, was ein echtes End-to-End-Vorfallmanagement ermöglicht. Die Antwortenden werden nicht mehr zu einzelnen, isolierten Symptomen weitergeleitet. Stattdessen konzentrieren sich Lösungs-Workflows jetzt auf ein Vorfallobjekt, das wirklich repräsentativ für ein echtes, den Service beeinträchtigendes Problem oder einen Ausfall ist. Diese Funktion definiert neu, wie Kunden die Daten ihrer Systeme intelligent sortieren und mit ihnen interagieren können, um Störungen zu reduzieren, die abteilungsübergreifende Zusammenarbeit zu verbessern und die Lösungszeiten zu verkürzen.

Bei neuen PagerDuty -Diensten werden Alarme automatisch aktiviert und Sie können die neuen Alarm-Triage-Funktionen sofort nutzen. Bei bestehenden Diensten, bei denen es sinnvoll ist, diese Funktion zu konfigurieren, klicken Sie einfach auf „Dienst bearbeiten“ und aktivieren Sie die Option „Alarme und Vorfälle erstellen“.

incident-behavior

Wenn ein Dienst so konfiguriert ist, Erstellen von Warnungen und Vorfällen , erstellen alle umsetzbaren Warnungen einen übergeordneten Vorfall. Um verwandte Warnungen in einem einzigen Vorfall zu konsolidieren, wählen Sie zwei oder mehr Vorfälle in der Vorfallliste aus, drücken Sie auf Zusammenführen und wählen Sie den Vorfall aus, in dem alles zusammengeführt werden soll.

merge-incidents

Wenn Sie mehrere Vorfälle zusammenführen, können Sie die Vorfallzusammenfassung problemlos bearbeiten, um das betreffende Problem präzise wiederzugeben, sodass die Helfer sich schnell einarbeiten können.

merge-incidents-summary

Vorteile von Alert Triage

Wenn es darum geht, einen reibungsloseren Workflow zur Vorfalllösung zu ermöglichen, bietet Alert Triage zahlreiche großartige Vorteile.

seamless-incident-resolution-workflow

  • Zentralisieren Sie wichtige Warninformationen Anstatt mehrere Warnmeldungen unabhängig voneinander ohne Korrelation und Konsolidierung zu bearbeiten, können die Einsatzkräfte jetzt einen einzelnen Vorfall untersuchen, um schnell auf den neuesten Stand zu kommen.
  • Alle betroffenen Dienste anzeigen – Identifizieren Sie schnell alle Dienste, die vom Vorfall betroffen sind.
  • Optimieren Sie die Übergabe zwischen verschiedenen Funktionen – Dies ist besonders wertvoll für NOC- und First-Level-Responder, da sie jetzt für die Neuzuweisung nur mit einem einzigen Objekt interagieren müssen, anstatt einzelne Warnungen manuell neu zuzuweisen oder zu eskalieren.
  • Reduzieren Sie die Alarmmüdigkeit – Die Helfer werden jetzt nur noch bei einem einzigen Vorfall mit dem gesamten konsolidierten Alarmkontext benachrichtigt, statt mehrmals von isolierten Tools, die redundante Alarme senden.
  • Richten Sie ein Einsatzkommando ein, um die Zusammenarbeit zu verbessern – Reaktions-Workflows wie die Mobilisierung von Einsatzkräften und Konferenzschaltungen sind jetzt auf das erweiterte Vorfallobjekt mit sämtlichem relevanten Kontext ausgerichtet, was die Kommunikation optimiert.
  • Nutzen Sie Massenaktionen für erhöhte Geschwindigkeit – Wenn für einen übergeordneten Vorfall eine Aktion ausgeführt wird, wird sie automatisch auf alle untergeordneten Warnungen angewendet und umgekehrt.

Die Verwendung von Alarmen und der neuen Funktion „Alert Triage“ ist ein wichtiger Baustein zur Erschließung des Mehrwerts von PagerDuty und steht allen Kunden ohne zusätzliche Kosten zur Verfügung. Wir empfehlen Ihnen dringend, mehr zu erfahren, indem Sie die folgenden Support-Artikel lesen:

Zögern Sie nicht, uns zu kontaktieren support@pagerduty.com wenn Sie Fragen oder Feedback haben, die wir gerne beantworten. Wir hoffen, dass Sie und Ihre Teams mit Alert Triage die Vorteile einer optimierten Reaktion auf Vorfälle genießen können